- 论文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
- 项目地址:https://imagen.research.google/
- 代码(非官方):https://github.com/deep-floyd/IF
- 模型权重:https://huggingface.co/DeepFloyd/IF-I-XL-v1.0
- 🤗关注公众号 funNLPer 白嫖有用的知识🤗
文章目录
介绍Imagen主要出于以下两点:
- 之前一直以为输入prompt的编码器用CLIP的text encoder会更好,毕竟图文语义已经对齐,后来发现imagen并没有使用CLIP的text encoder,而是直接使用了NLP中的大语言模型T5。仔细想了下无论是CLIP中的text encoer还是T5在训练阶段都是冻结的,是Unet来适配他们,所以之前有没有图文对齐貌似不是很重要
- 前面介绍的 Stable Diffusion 为了加快推理和节省计算资源是在Latent Space 上进行去噪,而Imagen是在像素空间。很多人直觉上都认为像素空间上进行去噪效果会更好,具体像素空间上去噪能否让生成的质量更好目前尚不清楚
基于以上两个问题,本人想彻底了解下Imagen