DDPM扩散模型一点非理论细节笔记

Chang.YY

已于 2023-11-28 21:31:08 修改

阅读量117

点赞数

文章标签：深度学习

于 2023-11-28 20:40:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chang_Yy/article/details/132909866

版权

前言

之前看了很多视频和博客，对于扩散模型DDPM（Denoising Diffusion Probabilistic Models）的解释大多基于一些晦涩的数学公式，而且很多实施细节都没能给出，花了很久推导公式看代码才明白了一点。具体的推导过程随处可见就不再赘述了，这里只记录一下困扰过我的一些细节。

前向过程：

扩散模型的前向过程就是按照公式

$q({\rm x}_t|{\rm x}_0) = \mathcal{N}({\rm x}_t;\sqrt{\overline{\alpha}_t}{\rm x}_0,(1-\overline{\alpha}_t){\rm x})$

进行前向扩散的，在扩散之前需要对图像的像素数据进行归一化，这里的 $\rm x_i$ 指的是归一化后的像素数据，传统的DDPM就是在像素层面对每个像素值按照这个公式进行计算的。根据这个公式可以一次实现t步加噪。在训练过程中对图像的加噪步数t是随机的[0:T]，而并不对每个图象完全加噪。

去噪过程：

去噪过程的数学推理对我而言极其复杂，但是其最终目的就是将loss转化为添加噪声和实际预测噪声的MSE。最终通过公式(懒得手打从论文中截的图)进行去噪，其中的 $\rm x_i$ 也是每一个像素的值。

其中的 $\rm\epsilon_\theta$ 就是模型预测出来的噪声。

当时困惑的点在于为什么加噪的时候只执行了一次就完成了t步加噪，即加噪的时候只有一个已知噪声，但去噪的时候需要预测出来t个噪声。原来是将每一步预测的噪声都与已知噪声比较，（我的理解是将一次完成的t步加噪当作t次完成的单步加噪，但是这t次使用的噪声是相同的，一次采样用t步），接着将模型每一步预测出来的噪声与已知噪声计算loss。按照上面的公式去噪。

生成：

在mnist数据集上跑了个小demo，使用0-9数字训练，每次随机生成一个数字，我觉得在输入随机噪声的时候模型可能会判断一下它更像是哪个数字然后朝着这个数字的方向去噪？

理解有误的地方欢迎大家指正交流。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DDPM扩散模型一点非理论细节笔记

扩散模型的一点非理论细节笔记
复制链接

扫一扫

Chang.YY CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

174万+: 周排名

28万+: 总排名

2444: 访问

: 等级

24: 积分

0: 粉丝

3: 获赞

1: 评论

9: 收藏

私信

关注

热门文章

最新评论

Setting up a new session
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

Setting up a new session

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。