Tutorial on Diffusion Models for Imaging and Vision

非常清晰、直观的Tutorial。
在这里插入图片描述
首先从编解码讲起。
在这里插入图片描述

过渡到VAE,以VAE作为类比分析。VAE的损失有两项——mse损失和 kl 项。VAE的编码和解码过程都用神经网络,所以编码和解码都有参数需要学习,因此有kl项。且直观解释了ELBO。

扩散模型的编码过程是确定性的,没有参数需要学习,只有解码过程有参数,而参数就是学习逆向转移的条件概率。因此,diffusion 的 kl 项无需训练,所以就只剩下了mse损失。再利用蒙特卡洛近似,实际上就是最小二乘问题。
在这里插入图片描述

再过渡到像残差网络一样,学残差,不直接学图像,就是现在见到的损失函数。

推导出扩散模型采样的数学公式,还给出了物理意义。非常直观地说明了逆向的每一步都是增加多样性,而不是为了去噪,这是因为其中第二项已经可以做去噪了。
在这里插入图片描述

扩散模型若从加噪讲起,则会匪夷所思为什么要莫名其妙给图像加噪。

最后还讲了另外两种解释——朗之万动力学和随机微分方程。共同点都是和随机采样类似,有一个随机项,直观解释就是增加多样性。

文笔还略带幽默,对于非正式出版的刊物,增加了乐趣。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值