【扩散模型】DALL-E2(unCLIP)原理

DALL E2(unCLIP,特征到图像)

Hierarchical Text-Conditional Image Generation with CLIP Latents

2022.04

https://cdn.openai.com/papers/dall-e-2.pdf

https://github.com/lucidrains/DALLE2-pytorch

在这里插入图片描述

DALL-E2模型无疑是扩散模型在文生图领域发展的一个重要节点,也引起了巨大的轰动,因此关注度比较高,网上也有其他大神的详细介绍视频。

跟着李沐学AI

摘要

像CLIP这样的对比模型已经被证明可以学习图像的鲁棒表示,同时捕捉语义和风格。为了利用这些表示进行图像生成,我们提出了一个两阶段模型:一个先验模型生成给定文本标题的CLIP图像嵌入,一个解码器生成以图像嵌入为条件的图像。我们表明,显式生成图像表示提高了图像多样性,并在照片真实感和标题相似性方面损失最小。我们的解码器以图像表示为条件,也可以产生图像的变体,同时保留其语义和风格,同时改变图像表示中缺失的非必要细节。此外,CLIP的联合嵌入空间使语言引导的图像处理以零拍摄的方式实现。我们使用扩散模型作为解码器,并对自回归模型和扩散模型进行实验,发现后者在计算上更有效,并产生更高质量的样本。

引言

在这里插入图片描述

方法

在这里插入图片描述

两阶段模式:

  • 第一阶段训练prior,将text embedding转化为image embedding的一一对应的关系,通过CLIP的image embedding去做ground truth监督训练。这样,在无图片信息的情况下,通过文本就能得到图像特征。

  • 第二阶段decoder,将图像特征经过扩散模型的解码器得到最后的图片。

解释两阶段的数学合理性:

P ( x ∣ y ) = P ( x , z i ∣ y ) = P ( x ∣ z i , y ) P ( z i ∣ y ) P(x|y)=P(x,z_i|y)=P(x|z_i,y)P(z_i|y) P(xy)=P(x,ziy)=P(xzi,y)P(ziy)

数据集也是图像文本对

Decoder

GLIDE模型的变体,使用CLIP作为Guidance

通过在10%的时间将CLIP嵌入随机设置为零(或学习嵌入),并在训练期间随机删除50%的文本标题来实现无分类器引导

级联式生成:训练了两个扩散上采样器模型:一个将图像从64×64上采样到256×256分辨率,另一个将图像进一步上采样到1024×1024分辨率。在训练过程中加入了噪声。在模型中只使用空间卷积(即,没有注意层),不需要担心不同尺寸图片有不同长度的序列。

Prior

  • 自回归模型AR

在这里插入图片描述

  • 扩散模型

都使用了classifier-free guidance

由于输入输出是embedding,扩散模型不适合使用U-Net,因此使用transformer。输入:文本特征、CLIP文本特征、time step、加入噪声的CLIP图像特征、transformer自身的embedding(cls token),最终的特征去预测没有噪声的CLIP图像特征,并且直接预测图像特征,而不是噪声。

L p r i o r = E t ∼ [ 1 , T ] , z i ( t ) ∼ q t [ ∥ f θ ( z i ( t ) , t , y ) − z i ∥ 2 ] L_{\mathrm{prior}}=\mathbb{E}_{t\sim[1,T],z_i^{(t)}\sim q_t}\left[\|f_\theta(z_i^{(t)},t,y)-z_i\|^2\right] Lprior=Et[1,T],zi(t)qt[fθ(zi(t),t,y)zi2]

局限性

  • 不能和物体的属性很好的结合起来,对颜色和方位特性理解很差

    在这里插入图片描述

  • 生成文字能力比较差

    在这里插入图片描述

  • 不能生成特别复杂的场景,很多细节不能生成出来

    在这里插入图片描述

相关论文和代码下载

有时候论文网站arXiv.org打开比较慢,已经将相关论文和代码上传到网盘,需要的可以自取

链接: https://pan.baidu.com/s/1J1h8R4KyY7k6NgS2t7YOZg?pwd=3ss8

可以关注公众号:

搜索:福尔马林灌汤包
在这里插入图片描述

  • 17
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值