文本生成图像|DALLE2论文记录

Myl0Xy1oto

已于 2022-10-19 20:54:27 修改

阅读量562

点赞数

分类专栏： cv入门ing 文章标签：计算机视觉

于 2022-10-19 20:53:26 首次发布

本文链接：https://blog.csdn.net/Myl0Xy1oto/article/details/127415656

版权

本文介绍了一种使用CLIP嵌入的两阶段模型，用于文本条件下的图像生成。首先，通过先验模型从文本生成CLIP图像特征，然后使用扩散解码器根据这些特征创建图像。研究了扩散模型的增强方法，如分类器自由指导，并展示了对CLIP潜在空间的探索，用于图像操作如变体、插值和文本差异。该方法提高了文本到图像生成的多样性和保真度。

摘要由CSDN通过智能技术生成

Hierarchical Text-Conditional Image Generation with CLIP Latents

Abstract

Clip模型：是Contrastive model的一种，可以很鲁棒地捕获语义和风格
本文提出一个2-stage model:一个prior模型，给出文字，生成一个CLIP图像特征；一个decoder根据图像特征生成图像

Introduction

CLIP
diffusion
our work:首先训练了一个diffusion decoder来反转CLIP图像encoder,这个反转器是non-deterministic的，对于一个给定的图像特征可以生成多个图片
相比起GAN，CLIP很大的一个优势是能够通过语音信息对图像进行修改
整体示意图
- 先用CLIP训练好文本和图像的联合表示空间，给定文本和文本的图像，出文本特征和图像特征，训练好之后它就frozen了不动了
- 再用clip处理出来的text特征进入prior模型生成img特征，再用diffussion decoder得到最终的图像

Method

对于image x，对应的text为y，CLIP生成的image embedding为 $z_i$ ，生成的text embedding为 $z_t$ ，
- $prior\ \ P(z_i|y)$ ：能够利用text y生成CLIP image embeddings $z_i$
- $decoder\ \ P(x|z_i,y)$ ：能够根据 $z_i$ (和~~某些时刻可能用到~~text y)生成图像x
- 于是整体流程be like:
$P(x|y)\mathop{=}\limits^① P(x,z_i|y)\mathop{=}\limits^②P(x|z_i,y)P(z_i|y)$