DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents
于 2023-12-24 22:30:01 首次发布
DALL-E 2结合CLIP和GLIDE,使用对比学习训练文本编码器和图像编码器。在生成过程中,文本特征通过Prior模型转化为图像特征,再由扩散模型生成图像。DALL-E 2训练时不微调CLIP参数,并利用classifier-free guidance和clip guidance优化解码模型,以产生高清图像。
摘要由CSDN通过智能技术生成