发布链接:http://arxiv.org/abs/2006.11239
中文标题:去噪扩散概率模型
会议:34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada
阅读原因:需要知道/理解扩散概率模型的实现机理
推荐阅读:diffusion model(一):DDPM技术小结 (denoising diffusion probabilistic) | 莫叶何竹🍀
论文提出了一种新的生成模型,称为去噪扩散概率模型,该模型基于不可逆热力学的原理来生成高质量的图像。
1. 研究背景
深度生成模型近年来在图像和音频的合成上取得了显著进展,如生成对抗网络(GANs)、变分自编码器(VAEs)和自回归模型等。然而,这些模型各自存在局限性,比如GANs易于模式崩溃、训练不稳定等问题。
该论文提出的扩散模型是一种基于马尔可夫链的生成模型,通过反向去噪来逐步恢复真实图像。其主要灵感来自于非平衡热力学中的扩散过程,将噪声逐渐添加到数据中,最后通过学习一个反向过程来还原数据。
2. 核心内容
前向扩散过程(Forward Process):从原始图像开始,逐渐添加高斯噪声,经过多个时间步长后将图像转换为纯噪声。
反向生成过程(Reverse Process):训练一个反向马尔可夫链,从纯噪声开始,逐步去噪,最终生成高质量的图像。
扩散模型使用了变分推断技术来训练反向生成过程,通过最小化证据下界(ELBO)来优化模型。
3. 去噪与Langevin动力学的关系
论文引入了与去噪分数匹配(denoising score matching)和Langevin动力学的联系。通过特定的参数化方式,扩散模型在多个噪声层次下进行去噪,生成的过程可以视为类似于Langevin动力学的过程。
这种方法使得该模型在无条件图像生成任务上达到了与当前最优生成模型相当的效果。
4. 实验结果
该论文在多个图像生成任务上进行了实验,尤其是CIFAR-10和LSUN数据集。实验结果表明,扩散模型能够生成高质量的样本,甚至在某些情况下优于当时最新的GAN模型。
在CIFAR-10上,DDPM模型取得了Inception得分9.46,并在无条件生成任务上达到了最优的FID得分3.17。与之对比,ProgressiveGAN在相同任务上的FID得分为14.73。
5. 模型的优势与不足
5.1优势:
- 稳定性好:与GAN相比,扩散模型在训练时没有模式崩溃问题,生成的样本质量稳定且多样。
- 高质量样本生成:通过多个时间步的逐步去噪,模型能够生成细节丰富的图像。
- 推断过程简单:使用了简单的高斯条件分布来进行推断,推导过程具有较强的可解释性。
5.2不足:
- 采样速度慢:由于需要进行多个时间步的去噪,采样过程较为缓慢。相比GAN一次性生成图像的方式,扩散模型的逐步采样效率较低。
- 对数似然不如其他模型:尽管生成样本质量很高,但扩散模型的对数似然(log likelihood)不如其他基于似然的生成模型(如VAE)竞争力。
6. 未来研究方向
加速采样过程:为了解决采样速度慢的问题,可以通过减少时间步数或引入更快的推断方法来提升采样效率。
扩展到其他数据模态:除了图像生成,扩散模型有望在音频、文本等其他数据类型上取得类似的成功。
与其他生成模型的结合:扩散模型可以与其他生成模型(如GANs、VAEs)结合,进一步提高生成质量和效率。
7.总结
DDPM模型通过马尔可夫链反向去噪过程实现了高质量的图像生成,并在生成任务中展示了优异的性能。