DDPM扩散模型一点非理论细节笔记

前言

之前看了很多视频和博客,对于扩散模型DDPM(Denoising Diffusion Probabilistic Models)的解释大多基于一些晦涩的数学公式,而且很多实施细节都没能给出,花了很久推导公式看代码才明白了一点。具体的推导过程随处可见就不再赘述了,这里只记录一下困扰过我的一些细节。

前向过程:

扩散模型的前向过程就是按照公式

q({\rm x}_t|{\rm x}_0) = \mathcal{N}({\rm x}_t;\sqrt{\overline{\alpha}_t}{\rm x}_0,(1-\overline{\alpha}_t){\rm x})

进行前向扩散的,在扩散之前需要对图像的像素数据进行归一化,这里的\rm x_i指的是归一化后的像素数据,传统的DDPM就是在像素层面对每个像素值按照这个公式进行计算的。根据这个公式可以一次实现t步加噪。在训练过程中对图像的加噪步数t是随机的[0:T],而并不对每个图象完全加噪。

去噪过程:

 去噪过程的数学推理对我而言极其复杂,但是其最终目的就是将loss转化为添加噪声和实际预测噪声的MSE。最终通过公式(懒得手打从论文中截的图)进行去噪,其中的\rm x_i也是每一个像素的值。

其中的\rm\epsilon_\theta就是模型预测出来的噪声。

当时困惑的点在于为什么加噪的时候只执行了一次就完成了t步加噪,即加噪的时候只有一个已知噪声,但去噪的时候需要预测出来t个噪声。原来是将每一步预测的噪声都与已知噪声比较,(我的理解是将一次完成的t步加噪当作t次完成的单步加噪,但是这t次使用的噪声是相同的,一次采样用t步),接着将模型每一步预测出来的噪声与已知噪声计算loss。按照上面的公式去噪。

生成:

在mnist数据集上跑了个小demo,使用0-9数字训练,每次随机生成一个数字,我觉得在输入随机噪声的时候模型可能会判断一下它更像是哪个数字然后朝着这个数字的方向去噪?

理解有误的地方欢迎大家指正交流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值