DDPM - Diffusion Models Beat GANs on Image Synthesis
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents
整体训练框架分为三步:
- 使用原有方式训练 CLIP,得到 text encoder 和 image encoder
- 使用 text encoder 处理文本并训练 prior 模块使得文本特征与 image encoder 的图像特征相似
- 使用改进的 GLIDE 模型将 prior 模型处理之后的文本特征生成对应的图像