DDPM 论文总结 Denoising Diffusion Probabilistic Models

最新推荐文章于 2024-12-30 07:00:00 发布

samoyan

最新推荐文章于 2024-12-30 07:00:00 发布

阅读量1.9k

点赞数 24

分类专栏： LLM 面试文章标签： transformer

本文链接：https://blog.csdn.net/baoyan2015/article/details/136260303

版权

43 篇文章

订阅专栏

作者: Jonathan Ho, Ajay Jain, Pieter Abbeel
概述: 论文提出了一种新的生成模型——去噪扩散概率模型（Denoising Diffusion Probabilistic Models, DDPM），受非平衡热力学的启发，通过逐步引入噪声并通过学习去噪过程来合成高质量的图像。
特点:
- DDPM是一类潜变量模型，通过在数据分布和简单分布（如高斯分布）之间建立桥梁，逐步将数据转化为噪声，再逆向重建数据。
- 论文中的模型通过对加权变分界限的训练（基于扩散概率模型和去噪得分匹配与朗之万动力学之间的新联系），获得了最佳结果。
- 模型天然支持一种渐进式有损解压方案，可以被看作是自回归解码的泛化。

1. 预测噪声而非像素转换

DDPM的第一个关键贡献是改变了生成模型的训练方式，从直接预测像素转换到预测加在图像上的噪声。这种方法简化了模型的优化过程，因为它将复杂的图像到图像的转换问题转换成了噪声预测问题。一旦噪声被准确预测，从噪声图像中恢复出干净图像就变得相对简单。
这种方法与ResNet的残差结构类似，在ResNet中，网络层不是直接预测输出，而是预测与输入的残差，这样可以提高网络的学习效率和性能。DDPM通过U-Net结构的Autoencoder预测每个时间步的高斯噪声，训练目标是使得预测的噪声尽可能接近真实添加的噪声。这里的关键是，这个噪声在正向扩散过程中是已知的，并可以作为训练过程中的Ground truth。

2. 仅预测正态分布的均值

DDPM的第二个贡献是发现在生成过程中，模型不需要学习整个正态分布的参数（即均值和方差），而只需要学习均值参数。在逆向过程中，高斯分布的方差可以使用一个固定的常数，这样可以进一步降低模型的优化难度，并且仍然能够达到很好的效果。
通过以上两个贡献，DDPM不仅简化了生成模型的训练过程，而且还提高了模型生成高质量图像的能力。这些创新为后续的研究提供了新的方向，也为生成模型的实际应用奠定了基础。
成果:
- 在无条件CIFAR10数据集上，模型取得了Inception得分9.46和当时最先进的FID得分3.17。
- 在256x256像素的LSUN数据集上，样本质量与ProgressiveGAN相似。
链接: arXiv:2006.11239 https://proceedings.neurips.cc/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf