motivation
从扩散概率模型(dpm)中采样可以看作是一个分段分布变换,通常需要数百或数千步的反扩散轨迹才能获得高质量的图像。最近在dpm快速采样器的设计上取得了进展,通过知识蒸馏或调整方差计划或去噪方程来实现采样速度和样本质量之间的权衡。然而,它不可能在两个方面都是最优的,并且经常在短时间内出现模态混合。为了解决这一问题,本文创新地将逆扩散视为不同阶段潜伏之间的最优传输(OT)问题,并提出了DPM-OT,这是一个统一的快速dpm学习框架,具有由OT映射表示的直接高速公路,可以在大约10个函数评估内生成高质量的样本。通过计算数据潜点与白噪声之间的半离散最优传输映射,得到了从先验分布到数据分布的一条高速公路,同时显著缓解了模态混合问题。同时给出了算法的误差界,从理论上保证了算法的稳定性。大量的实验验证了DPM-OT在速度和质量(FID和模式混合)方面的有效性和优势,从而代表了生成建模的有效解决方案。
1. introduce
扩散概率模型(Diffusion probistic models, dpm)是一类新的流行的生成模型,它使用参数化马尔可夫链在有限时间后生成与数据分布匹配的样本。这条链的过渡包括两个过程:扩散过程逐渐向数据分布中添加噪声,采样过程在长间隔的轨迹上逐渐逆转噪声破坏的每一步。在图像生成、视频生成、文本到图像生成、点云生成、形状生成和语音合成等许多任务上,dpm能够生成高质量的样本,甚至优于当前的SOTAs生成对抗网络(GANs)。尽管它们取得了成功,dpm的采样通常需要迭代数千个间隔,这比单步生成模型GANs和VAEs慢两到三个数量级。
现有的研究已经通过知识蒸馏、调整方差表或去噪方程成功地加速了dpm。早期的快速采样器不能保持样品的质量,甚至会以较高的加速速率引入新的噪声,这限制了其实用性。此外,现有方法试图用深度神经网络近似连续扩散过程,但忽略了目标数据流形在类边界处的不连续,从而导致生成图像中的模态混合。
为了解决上述问题,本文将去噪过程转化为OT问题,然后计算Brenier势来表示在奇点集不连续的OT映射,从而避免了模态混合。然后在不同间隔潜伏期之间构造最优轨迹,将多个去噪过程组合成OT映射,从而大大缩短了采样轨迹。在此基础上,本文提出了DPM-OT,可以在10步左右的反向扩散内生成高质量的图像。本文的主要贡献是:
- 通过将OT与扩散模型相结合,提出了一种用于快速dpm学习的统一学习框架。
- DPM-OT计算Brenier势来表示不同间隔电位之间的OT映射,从而显著减轻了模态混合。
- 从理论上分析了单步误差,给出了生成的数据分布与目标数据分布之间误差的上界。
- 大量的实验表明,DPM-OT在质量上优于sota,特别是在模态混合方面。
2. Preliminaries
在本文中,致力于通过将OT合并到DPM中来提供一个即插即用的快速DPM框架。因此,在本节中,首先回顾广义dpm。在此基础上介绍了半离散最优传输(SDOT)算法。
2.1 Generalized Diffusion Probabilistic Model
给定数据分布, dpm定义扩散过程
,通过添加高斯噪声产生扩散轨迹
,采样过程
反转扩散过程以重建原始数据。广义dpm可以表示为随机微分方程(SDEs)的解,其形式为:
其中w为标准温纳过程(又称布朗运动),b(.,t): Rd→Rd是向量值函数,称为x(t)的漂移系数; σ(·):R→R是标量函数,称为x(t)的扩散系数。Eq.(1)是以下离散形式(Eq. 2)在∆t→0时的极限,也称为正向SDE。
从概率的角度,将Eq.(2)重新表述为条件概率:
知识补充:
1.
2.
当有足够长的扩散轨迹和
时,最后的潜在
接近高斯分布。从