Diffusion model经典论文

Diffusion Models Beat GANs on Image Synthesis

论文地址

解决问题:
如何在有限计算资源的前提下提升Diffusion model的生成效果

解决思路:
Diffusion model现状:比GAN训练更稳定,生成多样性更好,但生成效果不如GAN。作者因此思考,是否可以通过优化网络结构,在真实度和多样性上进行平衡,让生成效果变好。
网络结构优化:
在这里插入图片描述
Adaptive Group Normalization
将类别信息融入网络中:
在这里插入图片描述
Classifier Guidance
利用泰勒展开推理得到,将条件信息加入Diffusion model后,效果近视于将整个分布的均值偏移了Eg,效果上看,加入条件信息后,图片真实度上升,但多样性下降,且条件权重越大效果越明显:
在这里插入图片描述
前向过程的伪代码:
在这里插入图片描述
对于二阶段网络,第一阶段低分辨率,使用clasify guide,第二阶段upsample,只是将条件信息和低分辨率图concate在一起,然后再上采样输入到网络中:
在这里插入图片描述

CLASSIFIER-FREE DIFFUSION GUIDANCE

论文地址
解决问题:
Classifier guidance虽然能大幅提升生成效果,但是训练时需要额外的分类器做为引导,增加训练复杂度的同时,也有一定的隐患,因为真实度指标FID等均基于分类器算法,训练时加入分类器梯度让人怀疑有梯度攻击的嫌疑。是否可以不需要分类器也能达到类似效果?
解决思路:
在原condtion model的基础上对condtion进行有随机去除,从而让模型兼具condtion和uncondtion的生成能力
在这里插入图片描述
推理时使用如下公式预测噪声,作者认为该公式避免了分类器梯度攻击的问题:
在这里插入图片描述
作者发现训练是以较小概率去除条件信息效果最好,这表明模型只需要较少的参数就可以实现无条件生成的引导能力,也就是说条件引导的参数量要求不大:
在这里插入图片描述
作者最后总结,条件引导可以使用纯生成模型解决,不需要分类器参与。作者提出的这种方法实际上是让模型趋向于生成有条件的内容,给模型的生成指定了一个大概的方向:
在这里插入图片描述

DENOISING DIFFUSION IMPLICIT MODELS

论文地址
解决问题:
DDPM推理需要去噪1000次,耗时太久,如何减少去噪次数,提高推理效率,是否一定要遵循马尔可夫链?作者因此提出DDIM
解决思路:

DDIM优点:

  1. 推理速度快10-100倍,去噪次数仅需10-100次
  2. DDIM的结果具有连续性,DDPM不具有
  3. 因为DDIM结果的连续性,可以利用插值实现多latent融合

注意: 文中的前向过程指的是X0 -> Xt,Xt -> X0是生成过程

思路来源:

作者在研究DDPM的目标函数Ly时,发现Ly仅依赖于边缘概率q(xt/x0),因此思考是否可用非马尔可夫链:
在这里插入图片描述
在这里插入图片描述
作者进而提出在前向过程中加入Xt,从而使前向过程是非马尔可夫链:
在这里插入图片描述
在这里插入图片描述
那前向过程的逆过程生成过程应该如何做?作者是先计算x0,然后利用x0和xt一起计算得到xt-1:
在这里插入图片描述
作者推理得出生成过程的范式,无随机噪声时,作者将其定义为DDIM,此时xt-1的内容是由xt和模型参数决定的,这也是DDIM具有连续性的来源:在这里插入图片描述
作者进而认为,既然去噪的目标函数L1仅依赖于边缘概率q(xt/x0),那我们的生成过程可以跳步去生成(这里有点看不明白。。。),不需要像前向过程一样迭代T次,从而加速生成过程:
在这里插入图片描述
实验结果分析:
作者发现,DDIM相比于DDPM,生成过程少了随机性,多了连续性,输入的噪声Xt提供了高层语义信息,具体细节受模型参数控制,

Scalable Diffusion Models with Transformers

论文地址

解决问题:
在业界普遍用UNet作为DM的基础架构是,思考是否有更好的网络结构
解决思路:
遵循ViT的思路,采用transformer结构,将图片patch化。condtion输入方面,作者尝试了三种方式,最终发现adaLN在flops和最终结果FID方面都是最优的,同时,对scale值a初始化为0对最终效果也有提升,最终提出adaLN-Zero结构:
在这里插入图片描述
decoder部分,作者使用标准线性decoder,输出噪声和方差:
在这里插入图片描述
作者通过大量实验得出以下结论:

  1. 增大模型大小,减小path此次,对生成质量提升明显:we find that increasing model size and decreasing patch size yields considerably improved diffusion models.
  2. DiT的Gflops越高,生成质量越好:DiT Gflops are critical to improving performance.
  3. 更大的DiT模型反而更具有计算效果,即同等Gflops的前提下,更大的DiT模型效果更好:Larger DiT models are more compute-efficient.
  4. DiT的Gflops越高,训练时loss下降的越快
  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值