前言
之前看了很多视频和博客,对于扩散模型DDPM(Denoising Diffusion Probabilistic Models)的解释大多基于一些晦涩的数学公式,而且很多实施细节都没能给出,花了很久推导公式看代码才明白了一点。具体的推导过程随处可见就不再赘述了,这里只记录一下困扰过我的一些细节。
前向过程:
扩散模型的前向过程就是按照公式
进行前向扩散的,在扩散之前需要对图像的像素数据进行归一化,这里的指的是归一化后的像素数据,传统的DDPM就是在像素层面对每个像素值按照这个公式进行计算的。根据这个公式可以一次实现t步加噪。在训练过程中对图像的加噪步数t是随机的[0:T],而并不对每个图象完全加噪。
去噪过程:
去噪过程的数学推理对我而言极其复杂,但是其最终目的就是将loss转化为添加噪声和实际预测噪声的MSE。最终通过公式(懒得手打从论文中截的图)进行去噪,其中的也是每一个像素的值。
其中的就是模型预测出来的噪声。
当时困惑的点在于为什么加噪的时候只执行了一次就完成了t步加噪,即加噪的时候只有一个已知噪声,但去噪的时候需要预测出来t个噪声。原来是将每一步预测的噪声都与已知噪声比较,(我的理解是将一次完成的t步加噪当作t次完成的单步加噪,但是这t次使用的噪声是相同的,一次采样用t步),接着将模型每一步预测出来的噪声与已知噪声计算loss。按照上面的公式去噪。
生成:
在mnist数据集上跑了个小demo,使用0-9数字训练,每次随机生成一个数字,我觉得在输入随机噪声的时候模型可能会判断一下它更像是哪个数字然后朝着这个数字的方向去噪?
理解有误的地方欢迎大家指正交流。