狗都能看懂的DDPM论文详解

热血厨师长

已于 2024-09-29 15:34:40 修改

阅读量1.7w

点赞数 96

分类专栏：生成模型深度学习文章标签：人工智能计算机视觉 stable diffusion

于 2024-04-07 11:49:03 首次发布

本文链接：https://blog.csdn.net/weixin_42392454/article/details/137458318

版权

深度学习同时被 2 个专栏收录

22 篇文章

订阅专栏

生成模型

6 篇文章

订阅专栏

本文介绍了DDPM/扩散模型，它是视觉领域的生成式模型，思想根基源于马尔可夫链。Stable Diffusion分为Diffusion和Reverse阶段，前者通过加噪得到噪声图，后者通过去噪恢复真实图片。文中给出了两阶段的具体原理、公式推导及算法流程，还对比了与GAN网络的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

DDPM/扩散模型是什么

DDPM（Denoising Diffusion Probabilistic Models）是扩散模型的一种，在视觉领域是属于生成式的模型。

扩散模型（Diffusion Model）的概念最早可以追溯到统计物理学中的玻尔兹曼机（Boltzmann Machines）。这是一种基于能量函数的概率模型，其目的是通过初始状态的蒙特卡洛采样，通过不断更新样本状态，使系统状态分布逐渐接近目标分布。而后科学家又在非均衡热力学的研究中发现，从一个初态经过一系列中间状态最终达到稳定状态，这与扩散模型通过一系列迭代过程从初始状态演化到目标分布的思想相契合。

扩散模型中最重要的思想根基是马尔可夫链，它的一个关键性质是平稳性。即如果一个概率随时间变化，那么在马尔可夫链的作用下，它会趋向于某种平稳分布，时间越长，分布越平稳。如图所示，当你向一滴水中滴入一滴颜料时，无论你滴在什么位置，只要时间足够长，最终颜料都会均匀的分布在水溶液中。这也就是扩散模型的前向过程。
diffusion main

既然颜料均匀分布在溶液中这个过程是必然会发生的，也就是说，通过某种方式，我们可以将其恢复成原来的状态。假设我们将颜料想象成一个噪声，它可以是一个任意的正态分布，我们在不断对一张图片逐步添加噪声的过程就可以看作是一个扩散过程。当添加噪声的次数足够多的时候，它已经变成了一个完全为噪声的图像，也就是我们说的稳定的状态，那么反向去噪的这个过程就是可逆的。那么给定一个神经网络，它只要预测出噪声，就能逐步将图像恢复。这个过程也被称为Stable Diffusion。

Stable Diffusion 分为 Diffusion 和 Reverse 两个阶段。其中 Diffusion 阶段通过不断地对真实图片添加噪声，最终得到一张噪声图片。而 Reverse 阶段，模型需要学习预测出一张噪声图片中的噪声部分，然后减掉该噪声部分，即：去噪。随机采样一张完全噪声图片，通过不断地去噪，最终得到一张符合现实世界图片分布的真实图片。以下分别介绍两个阶段的具体原理与公式推导。

Diffusion 阶段

这个阶段就是不断地给真实图片加噪声，经过 $T$ 步加噪之后，噪声强度不断变大，得到一张完全为噪声地图像。整个扩散过程可以近似看成一次加噪即变为噪声图，那么其实我们只需要搞清楚其中一步加噪就可以了，也即搞清楚 $X_t = f(X_{t-1})$ 中， $f (x)$ 的过程。
diffusion
$f (x)$ 在论文的公式中有明确的定义：
$X_t = \sqrt{1-\beta_t}*X_{t-1} + \sqrt{\beta_t}*Z_t \qquad\qquad\qquad Z_t \sim N(0,I)$
$t$ 是时间序列中一个值，取值范围为 $[0, T]$ ， $Z_t$ 是对应时间产生的随机噪声， $\beta_t$ 是超参数，也是序列中的一个值，在论文的实验部分，其经验值范围是 $10^{-4},0.02]$ 线性变化，而且一般来说， $t$ 越大， $\beta_t$ 的取值也就越大（一开始，加一点点噪声就能比较明显的看出和原图的区别，越到后面，图像退化的越厉害，轻微的扰动已经看不出明显的变化，所以 $\beta_t$ 的值需要更大）

训练时，这样逐步加噪声效率太低了。想要提高训练效率。那么既然最终都会扩散成一个稳定的状态，那么是否我们可以实现从 $X_0$ 直接扩散成 $X_T$ 呢？答案是可以的。

首先，这里先做一个简单的变化， $\alpha_t = 1 - \beta_t$ ，那么 $X_t$ 就变为：
$X_t = \sqrt{\alpha_t}*X_{t-1} + \sqrt{1-\alpha_t}*Z_t$
既然要从 $X_0$ 求到 $X_T$ ，那我们一步一步求，其中：
$X_{t-1} = \sqrt{\alpha_{t-1}}*X_{t-2} + \sqrt{1-\alpha_{t-1}}*Z_{t-1}$
将 $X_{t-1}$ 代入到 $X_t$ 的公式中，得：
$\begin{aligned} X_{t-1} &= \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}*X_{t-2} + \sqrt{1-\alpha_{t-1}}*Z_{t-1}) + \sqrt{1-\alpha_t}*Z_t \\ &= \sqrt{\alpha_t\alpha_{t-1}}*X_{t-2} + \sqrt{\alpha_t-\alpha_t\alpha_{t-1}}*Z_{t-1} + \sqrt{1-\alpha_t}*Z_t \end{aligned}$
$Z_t、Z_{t-1}$ 是从均值为0，方差为单位矩阵的正态分布的两次独立采样，所以：
$\begin{aligned} & \sqrt{\alpha_t-\alpha_t\alpha_{t-1}}*Z_{t-1} &&\sim N(0,(\alpha_t-\alpha_t\alpha_{t-1})*I) \\ & \sqrt{1-\alpha_t}*Z_{t-1} &&\sim N(0,(1-\alpha_t)*I) \end{aligned}$
二者相加，即为方差相加，得：
$N(0,(1-\alpha_t\alpha_{t-1})*I) \\$
所以 $X_{t-1}$ 的公式可以写成：
$X_{t-1} = \sqrt{\alpha_t\alpha_{t-1}}*X_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}}*Z \qquad\qquad\qquad Z \sim N(0,I)$
那其实足以看出，从 $X_0$ 推导至任意 $X_t$ ，有：
$X_t = \sqrt{\alpha_t\alpha_{t-1}\dots\alpha_1}*X_0 + \sqrt{1-\alpha_t\alpha_{t-1}\dots\alpha_1}*Z \qquad\quad Z \sim N(0,I)$
简写一下：
$X_t =\sqrt{\overline{\alpha_t}}*X_0 + \sqrt{1 - \overline{\alpha_t}}*Z \qquad\qquad\qquad (1)$
其中 $\overline{\alpha_t}$ 代表累乘。

当 $t$ 很大的时候， $X_t \approx Z$ （全为噪声）， ${\overline{\alpha_t}}$ 为0， $\beta_t$ 此时应比较大，也符合我们一开始的所给出来的结论。

diffusion阶段的总结：

核心公式（从 $X_0$ 一次扩散到 $X_t$ ）： $X_t =\sqrt{\overline{\alpha_t}}*X_0 + \sqrt{1 - \overline{\alpha_t}}*Z \qquad\qquad Z \sim N(\sqrt{\alpha_t}*X_0, (1 - \overline{\alpha_t})*I)$

其中某一步（从 $X_{t-1}$ 扩散到 $X_t$ ）： $X_t = \sqrt{\alpha_t}*X_{t-1} + \sqrt{1-\alpha_t}*Z_t \qquad\quad Z \sim N(\sqrt{\alpha_t}*X_{t-1}, (1-\alpha_t)*I)$

Reverse阶段

我们先来看一下整个reverse阶段是在做什么，首先取出batch size大小的t，然后针对每个image做diffusion，将我们得到的noise图像放到UNet网络预测噪声 $\widetilde{Z}$ （指代图中 $Z^{'}$ ），然后用noise信息预测多余的噪声 $\widetilde{Z}$ 即可。所以整个ddpm，需要训练的就是一个预测噪声的网络，使得预测出来的噪声与实际加的噪声越接近越好。对比GAN网络，不难发现GAN是需要训练2个模型，训练过程极其不稳定，有时候生成器训好了，判别器却没训好，以至于loss都不能真实的反映网络的性能。而ddpm只需要训练一个网络，相比之下稳定很多。
reverse
在加噪声的过程中，我们为了减少计算消耗，算出了一次扩散的公式，理论上我们也可以得到一次减噪的公式：
$X_0 = \frac{(X_t-\sqrt{1 - \overline{\alpha_t}}{\widetilde{Z}})}{\sqrt{\overline{\alpha_t}}} \qquad\qquad\qquad (2)$
论文中的结论可以知道，这么做的效果比较差，图片是很模糊的，不符合逆扩散的过程，最好还是一步一步推。先根据 $X_t$ 预测出 $\widetilde{Z}$ ，求出 $X_{t-1}$ ，然后逐步逐步得到 $X_0$ ，这个过程如下图所示：
backward
现在我们知道 $\widetilde{Z} = UNet(X_t, t)$ 计算得出，整个reverse过程中，就只剩下 $x_{t-1} = f(X_t, \widetilde{Z})$ 的 $f (x)$ 这个过程还没搞清楚了。

我们要推理 $X_t\rightarrow X_{t-1}$ 的过程，相当于已知 $X_t$ 的概率，去求 $X_{t-1}$ 的条件概率，即计算 $q(X_{t-1}|X_t)$ ，根据贝叶斯公式，有：
$q(X_{t-1}|X_t) = \frac{q(X_t,X_{t-1})}{q(X_t)} = \frac{q(X_t|X_{t-1})q(X_{t-1})}{q(X_t)}$
那么同样用条件概率的方式去等价（具体公式和其服从的正态分布见上文）：

$X_{t-1}\rightarrow X_t$ 可以用 $q(X_t|X_{t-1})$ 表示
$X_0 \rightarrow X_t$ 可以用 $q(X_t)、q(X_{t-1})$ 表示

那么如果将所有的概率都用正态分布表示：

$q(X_t|X_{t-1}) \quad \sim N(\sqrt{\alpha_t}*X_{t-1}, (1-\alpha_t)*I)$
$q(X_t) \qquad\quad \sim N(\sqrt{\overline{\alpha_t}}*X_0, (1 - \overline{\alpha_t})*I)$
$q(X_{t-1}) \quad\quad \sim N(\sqrt{\overline{\alpha_{t-1}}}*X_0, (1 - \overline{\alpha_{t-1}})*I)$

而在已知高斯分布的均值和方差时，有正比关系： $N(\mu,\sigma^2)\propto exp(\frac{1}{2}*\frac{(x-\mu)^2}{\sigma^2})$ ，将上面几个高斯分布的均值和方差分别代入（分子上相加，分母上相减），得：
$\frac{q(X_t|X_{t-1})q(X_{t-1})}{q(X_t)} \propto exp\{-\frac{1}{2}(*\frac{(x_t-\sqrt{\alpha_t}*X_{t-1})^2}{1-\alpha_t} + \frac{(x_{t-1}-\sqrt{\overline{\alpha_{t-1}}}*X_0)^2}{1-\alpha_{t-1}} - \frac{(x_t-\sqrt{\overline{\alpha_t}}*X_0)^2}{1-\overline{\alpha_t}})\}$
但别忘了，我们最初的目标是求分布 $q(X_{t-1}|X_t)$ ，也即求 $X_{t-1}$ ，可以观察到，目前我们推导的结果是一个 $X_{t-1}$ 的二项式，将其配方，找到我们关心的 $q(X_{t-1}|X_t)$ 的均值和方差。我们对上式进一步简化：
$q(X_{t-1}|X_t)\propto exp\{ -\frac{1}{2} (\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha_{t-1}}}*X_{t-1}^2)-2(\frac{\sqrt{\alpha_t}*X_t}{\beta_t} + \frac{\sqrt{\overline{\alpha_{t-1}}}*X_0}{1-\overline{\alpha_{t-1}}})*X_{t-1} + ?\}$
最后边的常量是什么不重要，我们只关心均值和方差，所以利用变量 $A 、 B$ 替代，简化求解过程：
$\begin{aligned} & exp \propto -\frac{1}{2}(A*X_{t-1}^2)-2B*X_{t-1} + C \\ & exp \propto \{-\frac{1}{2}A(X_{t-1} + \frac{B}{2A})^2 + C\} \end{aligned}$
由此可得均值和方差表示为：
$\mu = -\frac{B}{2A} \qquad \sigma^2 = \frac{1}{A}$
而 $A$ 与 $B$ 是替代的变量，为：
$\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha_{t-1}}} \qquad B = \frac{\sqrt{\alpha_t}*X_t}{\beta_t} + \frac{\sqrt{\overline{\alpha_{t-1}}}*X_0}{1-\overline{\alpha_{t-1}}}$
代入计算，方差为：
$\begin{aligned} \sigma^2 &=\frac{1}{A} \\ &=1/(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha_{t-1}}}) \\ &=1/(\frac{\alpha_t-\alpha_t*\overline{\alpha_{t-1}}+ \beta_t}{\beta_t*(1-\overline{\alpha_{t-1}})}) \\ &=\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}*\beta_t \end{aligned}$
均值为：
$\begin{aligned} \mu &= - \frac{B}{2A} \\ &= (\frac{\sqrt{\alpha_t}*X_t}{\beta_t} +\frac{\sqrt{\overline{\alpha_{t-1}}}*X_0}{1-\overline{\alpha_{t-1}}})* \frac{\sqrt{\overline{\alpha_{t-1}}}}{1-\overline{\alpha_t}}*\beta_t \\ &= \sqrt{\alpha_t}*\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}*X_t + \frac{\sqrt{\overline{\alpha_{t-1}}}*\beta_t}{1-\overline{\alpha_t}}*X_0 \end{aligned}$
所以为什么说逆扩散的时候，一步一步推是更准的，因为这个地方的 $X_0$ 是估计出来的，里面含有 $\widetilde{Z} = UNet(X_t, t)$ ，由于这个值每一次都是当前步估计的结果，而它本身由 $X_t$ 和 $\widetilde{Z}$ 计算得来，这两个值，t越小，占比也就越小，噪声越小，估计也就越准。

从结果可以看出，均值和方差都是由已知的 $\alpha、\beta$ 计算出来的，这些都是我们预设好的超参数，而 $X_t、X_0$ 又是之前公式(1)(2)中以求的了，继续将 $X_0$ 待入，可得：
$\begin{aligned} \mu &= \sqrt{\alpha_t}*\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}*X_t + \frac{\sqrt{\overline{\alpha_{t-1}}}*\beta_t}{1-\overline{\alpha_t}}*\frac{(X_t - \sqrt{1-\overline{\alpha_t}}*\widetilde{Z})}{\sqrt{\overline{\alpha_t}}} \\ &= \frac{X_t}{\sqrt{\alpha_t}}*(\frac{\alpha_t-\sqrt{\overline{\alpha_t}}+\beta_t}{1-\overline{\alpha_t}})+\frac{\widetilde{Z}}{\sqrt{\alpha_t}}*\frac{\beta_t}{\sqrt{1-\overline{\alpha_t}}} \\ &=\frac{1}{\sqrt{\alpha_t}}*(X_t - \frac{\beta_t}{\sqrt{1-\overline{\alpha_t}}}*\widetilde{Z}) \end{aligned}$
由于我们刚刚说过：
$q(X_{t-1}|X_t) = X_{t-1} \sim N(\mu, \sigma^2*I)$
所以最终得到的结论就是：
$q(X_{t-1}|X_t) \sim N(\frac{1}{\sqrt{\alpha_t}}(X_t - \frac{\beta_t}{\sqrt{1-\overline{\alpha_t}}}*\widetilde{Z}, \quad \frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}*\beta_t)$
利用重参数化技巧（高斯分布里面写的是方差，乘的是标准差，要加上一个根号），得：
$X_{t-1} = \frac{1}{\sqrt{\alpha_t}}(X_t - \frac{\beta_t}{\sqrt{1-\overline{\alpha_t}}}*\widetilde{Z}) + \sqrt{\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}*\beta_t}) * Z$
其中
$\widetilde{Z} = UNet(X_t, t)\qquad Z\sim N(0,I)$
这里的 $Z$ 采样也是希望在重建的过程中，能添加一些不确定性，不至于每一次重建的结果都是由UNet决定。从公式里面也可以看出， $X_{t-1}$ 也是从 $X_t$ 减去 $\widetilde{Z}$ ，将预测噪声移除。

这里补充说明一下，重参数的过程，假设从某个正态分布 $N(\mu, \sigma^2*I)$ 采样一个X的话，它可以等价于，从一个标准正态分布 $N (0, I)$ 去采样一个 $Z$ ，然后利用 $Z$ 去生成 $X$ ：
$\mu + \sigma * Z \quad \sim \quad N(\mu,\sigma^2*I)$

总结

Algorithm

最后我们对照一下DDPM中的给出的算法流程。

训练过程中，我们对每个 $x$ 都会采样出一个 $t$ ，然后根据 $t$ ，生成对应的噪音 $\epsilon$ ，我们的UNet网络需要预测的就是这个噪声，它的参数被记作 $\theta$ ，这里额外说明一下，也并不是一定要用UNet，只是这个网络结构资源消耗和适用性更好。当训练完成之后，我们就有了一个去噪网络。

采样过程中，我们是没有任何真实图像的，所以我们需要从一个标准正态分布中采样一个 $X_T$ ，这是我们采样的起点，接下来，我们会对它做 $T$ 步的reverse，一直推到 $X_0$ ，这里算法还有个小细节，只有 $t > 1$ 的时候， $z$ 才需要采样，否则它就是0，当 $t = 0$ 时，我们想求的就是真实的 $X_0$ ，这时候就不需要加扰动了，它必须是个确定的结果。相当于均值给定的是一个确定的生成方向，方差和噪声给定的是一个不确定的方向。另外呢，从训练经验来看，这个扰动值也不需要和推理结果完全一样，论文只是提供了这个扰动强度的上界 $\sigma$ ，比他小甚至为 0，也是可以的。