【扩散模型】DALL-E2（unCLIP）原理

最新推荐文章于 2024-08-18 23:41:57 发布

福尔马林灌汤包

最新推荐文章于 2024-08-18 23:41:57 发布

阅读量433

点赞数 17

分类专栏：【扩散模型】diffusion图像生成理论学习文章标签：深度学习 stable diffusion

本文链接：https://blog.csdn.net/iloveyouqri/article/details/141300554

版权

【扩散模型】diffusion图像生成理论学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

DALL E2（unCLIP，特征到图像）

Hierarchical Text-Conditional Image Generation with CLIP Latents

2022.04

https://cdn.openai.com/papers/dall-e-2.pdf

https://github.com/lucidrains/DALLE2-pytorch

在这里插入图片描述

DALL-E2模型无疑是扩散模型在文生图领域发展的一个重要节点，也引起了巨大的轰动，因此关注度比较高，网上也有其他大神的详细介绍视频。

跟着李沐学AI

摘要

像CLIP这样的对比模型已经被证明可以学习图像的鲁棒表示，同时捕捉语义和风格。为了利用这些表示进行图像生成，我们提出了一个两阶段模型:一个先验模型生成给定文本标题的CLIP图像嵌入，一个解码器生成以图像嵌入为条件的图像。我们表明，显式生成图像表示提高了图像多样性，并在照片真实感和标题相似性方面损失最小。我们的解码器以图像表示为条件，也可以产生图像的变体，同时保留其语义和风格，同时改变图像表示中缺失的非必要细节。此外，CLIP的联合嵌入空间使语言引导的图像处理以零拍摄的方式实现。我们使用扩散模型作为解码器，并对自回归模型和扩散模型进行实验，发现后者在计算上更有效，并产生更高质量的样本。

引言

在这里插入图片描述

方法

在这里插入图片描述

两阶段模式：

第一阶段训练prior，将text embedding转化为image embedding的一一对应的关系，通过CLIP的image embedding去做ground truth监督训练。这样，在无图片信息的情况下，通过文本就能得到图像特征。
第二阶段decoder，将图像特征经过扩散模型的解码器得到最后的图片。

解释两阶段的数学合理性：

$P(x|y)=P(x,z_i|y)=P(x|z_i,y)P(z_i|y)$

数据集也是图像文本对

Decoder

GLIDE模型的变体，使用CLIP作为Guidance

通过在10%的时间将CLIP嵌入随机设置为零(或学习嵌入)，并在训练期间随机删除50%的文本标题来实现无分类器引导

级联式生成：训练了两个扩散上采样器模型:一个将图像从64×64上采样到256×256分辨率，另一个将图像进一步上采样到1024×1024分辨率。在训练过程中加入了噪声。在模型中只使用空间卷积(即，没有注意层)，不需要担心不同尺寸图片有不同长度的序列。

Prior

自回归模型AR

在这里插入图片描述

扩散模型

都使用了classifier-free guidance

由于输入输出是embedding，扩散模型不适合使用U-Net，因此使用transformer。输入：文本特征、CLIP文本特征、time step、加入噪声的CLIP图像特征、transformer自身的embedding（cls token），最终的特征去预测没有噪声的CLIP图像特征，并且直接预测图像特征，而不是噪声。

$L_{\mathrm{prior}}=\mathbb{E}_{t\sim[1,T],z_i^{(t)}\sim q_t}\left[\|f_\theta(z_i^{(t)},t,y)-z_i\|^2\right]$

局限性

不能和物体的属性很好的结合起来，对颜色和方位特性理解很差
生成文字能力比较差
不能生成特别复杂的场景，很多细节不能生成出来

相关论文和代码下载

有时候论文网站arXiv.org打开比较慢，已经将相关论文和代码上传到网盘，需要的可以自取

链接: https://pan.baidu.com/s/1J1h8R4KyY7k6NgS2t7YOZg?pwd=3ss8

可以关注公众号：

搜索：福尔马林灌汤包

福尔马林灌汤包

关注

17
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
【扩散模型】DALL-E2（unCLIP）原理

像CLIP这样的对比模型已经被证明可以学习图像的鲁棒表示，同时捕捉语义和风格。为了利用这些表示进行图像生成，我们提出了一个两阶段模型:一个先验模型生成给定文本标题的CLIP图像嵌入，一个解码器生成以图像嵌入为条件的图像。我们表明，显式生成图像表示提高了图像多样性，并在照片真实感和标题相似性方面损失最小。我们的解码器以图像表示为条件，也可以产生图像的变体，同时保留其语义和风格，同时改变图像表示中缺失的非必要细节。此外，CLIP的联合嵌入空间使语言引导的图像处理以零拍摄的方式实现。
复制链接

扫一扫

专栏目录