Tutorial on Diffusion Models for Imaging and Vision

phoenix@Capricornus

已于 2024-08-31 16:38:19 修改

阅读量80

点赞数 1

分类专栏： Paper reading 文章标签：深度学习

于 2024-08-31 16:37:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013600306/article/details/141754267

版权

Paper reading 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

非常清晰、直观的Tutorial。
在这里插入图片描述
首先从编解码讲起。

过渡到VAE，以VAE作为类比分析。VAE的损失有两项——mse损失和 kl 项。VAE的编码和解码过程都用神经网络，所以编码和解码都有参数需要学习，因此有kl项。且直观解释了ELBO。

扩散模型的编码过程是确定性的，没有参数需要学习，只有解码过程有参数，而参数就是学习逆向转移的条件概率。因此，diffusion 的 kl 项无需训练，所以就只剩下了mse损失。再利用蒙特卡洛近似，实际上就是最小二乘问题。
在这里插入图片描述

再过渡到像残差网络一样，学残差，不直接学图像，就是现在见到的损失函数。

推导出扩散模型采样的数学公式，还给出了物理意义。非常直观地说明了逆向的每一步都是增加多样性，而不是为了去噪，这是因为其中第二项已经可以做去噪了。
在这里插入图片描述

扩散模型若从加噪讲起，则会匪夷所思为什么要莫名其妙给图像加噪。

最后还讲了另外两种解释——朗之万动力学和随机微分方程。共同点都是和随机采样类似，有一个随机项，直观解释就是增加多样性。

文笔还略带幽默，对于非正式出版的刊物，增加了乐趣。

phoenix@Capricornus

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Tutorial on Diffusion Models for Imaging and Vision

扩散模型的编码过程是确定性的，没有参数需要学习，只有解码过程有参数，而参数就是学习逆向转移的条件概率。因此，diffusion 的 kl 项无需训练，所以就只剩下了mse损失。VAE的编码和解码过程都用神经网络，所以编码和解码都有参数需要学习，因此有kl项。且直观解释了ELBO。非常直观地说明了逆向的每一步都是增加多样性，而不是为了去噪，这是因为其中第二项已经可以做去噪了。共同点都是和随机采样类似，有一个随机项，直观解释就是增加多样性。再过渡到像残差网络一样，学残差，不直接学图像，就是现在见到的损失函数。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。