diffusion model扩散模型论文解读，含详细公式推导，通俗易懂！

joerHui

已于 2024-01-24 02:54:17 修改

阅读量6.8k

点赞数 65

分类专栏：深度学习文章标签：人工智能 ai 机器学习深度学习计算机视觉

于 2023-05-28 07:49:32 首次发布

本文链接：https://blog.csdn.net/hhjoerrrr/article/details/130889392

版权

写在前面的一些话

因为自己项目需要，以及总是听说扩散模型，所以自己去b站看了视频，博客主要建立于迪哥视频，尽量写的通俗易懂，致力于高效省时的帮助大家搞明白扩散模型的原理，让小白也能读懂这篇论文
注意！！文章可能涉及比较多公式，但不要害怕！！结合我的说明，看懂没问题的，一步步来！不要着急，不要跳步！如果有错误，欢迎指正！有什么问题欢迎在评论区讨论！

简述

最近经常听说扩散模型，甚至可以打败GAN。回顾GAN，我们需要同时训练生成器和判别器，可能会难以收敛以及学习到一些我们不想要的特征。而diffusion model做的事情就是用了一种更简单的方式来解释生成模型应该怎么学习和生成。diffusion model火起来是因为DALLE 2的出现（也是openai的，跟chatgpt出自一个公司），实现文字转图片，能得到非常惊艳的效果（如下图，生成一个牛油果形状的沙发），可以自行搜索一下他们的网站
在这里插入图片描述

整个diffusion model可以分为两部分，一个是前向扩散过程，另一个是逆扩散过程，通俗理解为：前向扩散过程不停的往图片上加服从高斯分布的噪声，加到使图片变得“面目全非”（下图从右到左），逆扩散过程就是不停的减噪声然后复原成图片（从左到右）在这里插入图片描述
在原论文中，扩散过程需要进行2000次加噪声的步骤，实际操作中大约200-500次。在扩散过程中，每次往图片上加的噪声就是逆过程的标签，接下来我会分别解释前向扩散过程以及逆扩散过程

前向扩散过程 forward diffusion

在这里插入图片描述
前面说到，扩散过程简单来说就是不停的往图片里加噪声，把图片加的面目全非。那怎么加，加多少呢？论文中给出核心公式:
$x_t=\sqrt{\alpha_t} x_{t-1}+\sqrt{1-\alpha_t} z_1 \quad(1)$
这个公式怎么来的呢？别急，我们一步步来看这个公式

首先，值得一提的是，整个扩散模型是符合马尔可夫定理的，也就是说t时刻的分布只与t-1时刻有关，所以为什么公式里只出现了 $x_{t-1}$ 而没有 $x_{t-2}$ ， $x_{t-3}$ ， $x_{t-4}$ …

其次， $\alpha_t$ 是一个经验常量，且 $\alpha_t$ 会随着t的增大而减小，这是实验前决定的； $z_1$ （包括文章后面出现的 $z_2$ ， $z_3$ …）都是服从标准高斯分布的噪声~N(0，I) 。由此，我们可以将这个公式理解为一部分的 $x_{t-1}$ 加上了一部分的 $z_{1}$ ，也就是说， $x_{t}$ 等于前一时刻的分布 $x_{t-1}$ 和标准高斯分布 $z_{1}$ 的权重和，而这个权重由 $\alpha_t$ 决定。因为随着t的增大 $\alpha_t$ 会减小，所以 $x_{t-1}$ 的权重会越来越小， $z_{1}$ 的权重会越来越大。因此随着t的增大，噪声占比越来越大，前一时刻的分布占比越来越小。

好了，到这里我们搞懂了其中一个核心公式。但有一个问题，假如我加噪声加了1000次，我要是想知道第一千次的分布，难道要从第一步开始一步步往后推吗，知道了 $x_0$ 我才能知道 $x_1$ ，知道 $x_1$ 我才能知道 $x_2$ ？这也太慢了吧。因此论文又给了我们另一个公式：
$x_t=\sqrt{\bar{\alpha}_t} x_0+\sqrt{1-\bar{\alpha}_t} {z}_t，\bar{\alpha}_t=\alpha_t \alpha_{t-1} \alpha_{t-2}... \quad(2)$
这又是怎么来的呢？接下来慢慢解释。

让我们先根据公式(1)写出 $x_{t-1}$ 的公式 (把(1)中的t换成t-1就行了);
$x_{t-1}=\sqrt{\alpha_{t-1}} x_{t-2}+\sqrt{1-\alpha_{t-1}} z_2 \quad(3)$
再直接把(3)中的 $x_{t-1}$ 带入到(1)：
$x_t=\sqrt{\alpha_t}\left(\sqrt{\alpha_{t-1}} x_{t-2}+\sqrt{1-\alpha_{t-1}} z_2\right)+\sqrt{1-\alpha_t} z_1 \quad(4)$
把 $\sqrt{\alpha_t}$ 乘进去，括号移一下：
$x_t=\sqrt{\alpha_t\alpha_{t-1}} x_{t-2}+\left(\sqrt{\alpha_t(1-\alpha_{t-1})} z_2+\sqrt{1-\alpha_t} z_1\right) \quad(5)$
到这里应该没什么难点，只是简单的代入。我们仔细观察一下公式(5)，发现括号内是两个高斯分布相加（记住： $z_1,z_2,z_3...$ 都是服从标准的高斯分布），我们知道两个高斯分布相加还是高斯分布，具体推导可以参考另一个博主的博客。那么括号里加出来新的高斯分布具体是什么呢？

如果我们把公式(5)中的 $\sqrt{\alpha_t(1-\alpha_{t-1})} z_2$ 看作一整个分布，那：
$\sqrt{\alpha_t(1-\alpha_{t-1})} z_2 \sim \mathcal{N}(0, {\alpha_t(1-\alpha_{t-1})})\quad(6)$
同理对于公式(5)中的 $\sqrt{1-\alpha_t} z_1$ ： $\sqrt{1-\alpha_t} z_1 \sim \mathcal{N}(0, {1-\alpha_t})\quad(7)$

插一句，这是因为，在一个高斯分布前面乘上一个系数相当于改变它的标准差，给一个高斯分布加上或减去某个数相当于改变它的均值

ok，那根据博客里推导的公式，两个高斯分布相加后新的高斯分布应为：
$\mathcal{N}\left(0, \sigma_1^2 \mathbf{I}\right)+\mathcal{N}\left(0, \sigma_2^2 \mathbf{I}\right) \sim \mathcal{N}\left(0,\left(\sigma_1^2+\sigma_2^2\right) \mathbf{I}\right) \quad(8)$