[论文阅读笔记][CVPR2023]All are Worth Words: A ViT Backbone for Diffusion Models

【title】All are Worth Words: A ViT Backbone for Diffusion Models

Paper的任务

设计一种基于 Vision Transformer(ViT)的架构,称为 U-ViT,用于结合扩散模型进行图像生成任务。

任务的科学问题,及其定义

探索在扩散模型中是否可以摆脱传统的基于卷积神经网络(CNN)的 U-Net 结构的依赖。

challenges

在不使用大规模外部数据集的情况下,在图像生成任务中实现出色的性能,特别是在无条件图像生成、类条件图像生成和文本到图像生成等任务中。

为啥会有challenge?

因为传统的 U-Net 结构基于 CNN 的设计在扩散模型中占据主导地位,在不依赖传统结构的情况下实现同等甚至更优的性能是一项挑战。同时,需要克服在没有访问大规模外部数据集的情况下,保持高质量的图像生成。

motivation

为未来的扩散模型主干研究提供思路,促进在大规模跨模态数据集上进行生成式建模。

方法及架构图

  • 方法 

    • 将所有输入(包括时间、条件和噪声图像块)视为标记。U-ViT将这些输入信息编码为可供Transformer模型处理的标记序列。
    • 使用长跳跃连接(long skip connections)连接浅层和深层,使浅层特征传递到深层,为深层网络提供更丰富的信息。
    • 采用Transformer模型对标记序列进行处理和生成,以实现图像生成任务。
  • 框架图

  • 结果

    • U-ViT在与类似规模的基于卷积神经网络(CNN)的U-Net进行比较时,在图像生成任务中表现出可比拟甚至更好的性能。特别地,在条件图像生成和文本到图像生成任务中,利用U-ViT的潜在扩散模型在ImageNet 256×256数据集上实现了2.29的FID分数,在MS-COCO数据集上实现了5.48的FID分数,且这些结果是在没有使用大规模外部数据集进行训练的情况下获得的。

实验设置

  • 设置了哪些实验?

    • 无条件图像生成:通过训练U-ViT模型,生成与训练数据相似的无条件图像。使用评价指标(如Fréchet Inception Distance, FID)来衡量生成图像与真实图像之间的差异程度。
    • 条件图像生成:在条件图像生成任务中,给定一些条件信息,如图像标签或额外的输入图像块,生成与条件相对应的图像。同样使用FID等指标来评估生成图像的质量和准确性。
    • 文本到图像生成:在给定文本描述的情况下,生成与文本描述相符的图像。使用FID等指标来评估生成图像与真实图像之间的一致性。
  • 消去实验都消去了什么?

    • 对于CNN-based U-Net,消去了下采样和上采样操作。这些操作通常用于U-Net中的编码器和解码器之间,在扩散模型中常用于处理图像的分辨率变化。通过消去这些操作,论文验证了它们在图像扩散模型中的必要性。
    • 对于U-ViT架构,消去了包括输入的时间、条件和噪声图像块的处理方式,以及是否添加额外的3×3卷积块。

创新点

  • 提出了一种基于ViT的简单通用架构U-ViT,用于扩散模型中的图像生成任务。
  • 引入了长跳跃连接,将浅层特征与深层特征相连接,提高了低层特征对像素级预测任务的敏感性,并简化了噪声预测网络的训练。

笔记

        长跳跃连接在图像扩散模型中的作用

    1. 信息传递:通过长跳跃连接,浅层特征可以直接传递给深层,从而使深层网络可以获得来自浅层的更丰富的信息。这种信息传递可以帮助深层网络更好地理解和捕捉图像中的细节和特征,从而提高图像扩散模型的性能。
    2. 特征整合:长跳跃连接允许浅层特征与深层特征进行融合和整合。通过将这些特征相加或拼接,可以获得更丰富、更全局的特征表示。这种特征整合可以帮助模型更好地理解图像的上下文和语义信息,提高生成图像的质量和准确性。
    3. 梯度传播:在训练过程中,长跳跃连接可以促进梯度的传播和反向传播。由于浅层特征直接连接到深层,梯度可以更轻松地传递回浅层,从而更好地训练整个模型。这有助于减轻梯度消失和梯度爆炸问题,提高模型的训练稳定性和收敛性。

         FID分数 

  1. FID(Fréchet Inception Distance)是一种用于评估生成模型质量的指标,常用于图像生成任务中。它基于真实图像分布和生成图像分布之间的统计特征进行比较。
  2. FID利用了两个关键组件:特征提取器和协方差矩阵。通常情况下,特征提取器使用预训练的卷积神经网络(如Inception网络)来提取图像的特征表示。然后,通过在真实图像集和生成图像集上运行特征提取器,可以得到它们在特征空间中的分布。
  3. 接下来,通过计算真实图像分布和生成图像分布之间的协方差矩阵,FID测量了它们的差异程度。具体来说,FID考虑了两个分布的均值向量和协方差矩阵之间的Frobenius范数。Frobenius范数衡量了两个矩阵之间的差异程度,因此FID越低表示生成图像与真实图像之间的差异越小,生成模型的质量越高。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瘦小星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值