ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量

论文详细分析了扩散模型中的曝光偏差问题,指出在训练与采样过程中的输入偏差。提出了一种名为 Epsilon Scaling (ES) 的新方法,它无需额外训练,通过调整采样过程中的参数,显著改善了生成质量。实验显示,ES 在多种扩散模型框架上有效,例如在 ADM 上实现了 SOTA 的采样器,降低 CIFAR-10 的 FID 到 2.17。
摘要由CSDN通过智能技术生成

0e5233c2af619757d4118f44d88d6e72.gif

431696ee37a6b23dbff53f24e626162b.png

论文链接:

https://arxiv.org/abs/2308.15321

代码连接:

https://github.com/forever208/ADM-ES

77ac03f7604f4946de12119b685b506f.png

摘要

扩散模型在图像生成方面非常成功,但其曝光偏差(exposure bias)的问题(训练和采样过程的输入存在偏差)缺乏深入的探索。在本文中,我们通过首先对真实的采样分布进行分析,并找出了暴露偏差问题的根本原因。此外,我们讨论了该问题一些潜在解决方案,并且提出了一种简单且高效的无需训练的方法,称为 Epsilon Scaling(ES),来减轻暴露偏差。

实验表明,ES 显式地让采样轨迹向训练轨迹(训练得到的向量场)靠近,从而减轻训练和采样之间的输入不匹配。我们在各种扩散模型框架(ADM、DDIM、EDM、LDM、DiT、PFGM++)上验证了 ES 的有效性。比如将 ES 应用于 ADM 上,我们得到了一个 SOTA 的随机采样器:在 100 步无条件生成下,在 CIFAR-10 上获得了 2.17 FID.

1d5e5d7e6a12aec16642ac2f9f7c5ca2.png

扩散模型中的曝光偏差

与自回归的文本生成类似,扩散模型也存在曝光偏差问题。即训练阶段喂给网络的是真值 ,而采样阶段喂给网络的是上一时刻网络预测的 ,由于网络在训练阶段从来没有看过 ,因此无法学习准确的 score 或 epsilon。

bea2894b6481bb7076f259d7954aa934.png

47ed74a5e3517101eab2cfc677a7a00e.png

真实的采样分布

我们显式地建模真实的采样分布以比较 和 的差异。

  • 10
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值