简单基础入门理解Denoising Diffusion Probabilistic Model，DDPM扩散模型

xiongxyowo

已于 2023-03-02 20:21:44 修改

阅读量1.6w

点赞数 217

分类专栏： DDPM 文章标签：划水

于 2022-09-19 13:19:37 首次发布

本文链接：https://blog.csdn.net/qq_40714949/article/details/126643111

版权

DDPM 专栏收录该内容

2 篇文章

订阅专栏

阅前须知：文中存在少许已证实/尚未证实的描述错误，建议结合评论区分析共同理解。

I. 作者的话

最近非常不巧的要研究什么diffusion…然而目前网上能找到的资料完全是设计给非常熟练数学的人看的(哪怕对于许多所谓的"入门教程"，基本就是纯数学劝退教程)，对于我这种高数概率论约等于挂科的人来说根本没法看。因此希望写一篇尽量通俗易懂，在尽量避免「概率论」的情况下，能把diffusion讲明白来的文章。

由于笔者数学并不是很好，且也只是刚刚接触diffusion模型，因此本文应「只」适合于同样「数学较差」无法看懂网络上其他地方(~~例如X乎~~)教程的同学，「不」适合对diffusion有关底层数学原理动机比较熟悉的。如果存在推理描述错误，以及对本文表述有疑问之类，欢迎一同在评论区中讨论。

$\copyright csdn: xiongxyowo$

II. 前置知识

如果后续推导中有不理解的数学定义，「回到」这里或许能找到解释。

数学符号

$\propto x$ ， $y$ 正比于 $x$ ，即 $y$ 随着 $x$ 增大而线性增大。

条件概率

$\mid B)$ 表示事件 $B$ 已经发生的情况下，事件 $A$ 发生的可能性。
换在本文的语境下，就是变量 $B$ 已知的情况下，变量 $A$ 的取值分布。
$\mid B, C)$ 则是一种多元条件概率，表示在 $B$ ， $C$ 同时发生的情况下， $A$ 发生的概率。
换在本文的语境下，就是变量 $B$ ， $C$ 已知确定的情况下，变量 $A$ 的取值分布。

贝叶斯公式

$\mid B) = \frac{P(B \mid A) * P(A)}{P(B)}$

高斯分布的概率密度函数

给定均值为 $\mu$ ，标准差为 $\sigma$ ，方差为 $\sigma^2$ 的高斯分布 $\mathcal{N}(\mu, \sigma^2)$ ，其概率密度函数为： $\frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{1}{2}{{(\frac{{x - \mu }}{\sigma })}^2}}}$ 。
很多时候，为了方便起见，也会写成 $\propto {e^{ - \frac{1}{2}{{(\frac{{x - \mu }}{\sigma })}^2}}}$ ，也就是把前面乘的常数系数 $\frac{1}{{\sqrt {2\pi } \sigma }}$ 去掉了。
进一步的，为了推导方便起见，我们把 ${\exp({ - \frac{1}{2}{{(\frac{{x - \mu }}{\sigma })}^2}})}$ 展开，因此有 $\propto \exp(-\frac{1}{2}\left(\frac{1}{\sigma^2} x^2-\frac{2 \mu}{\sigma^2} x+\frac{\mu^2}{\sigma^2}\right))$

概率分布中分号的理解

如果对形如 $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)$ 的式子感到疑惑，这篇文章提供了一种理解方法。
以上面提到的高斯分布为例，如果概率分布密度函数中的自变量不是默认的 $x$ 而是其他，那么应该在分布记号中显式的用分号表示实际的自变量。比如实际的自变量是 $x_1$ 而非 $x$ ，那么高斯分布应记做 $\mathcal{N}(x_1; \mu, \sigma^2)$ 。默认不写分号的话， $\mathcal{N}(\mu, \sigma^2)$ 等价于 $\mathcal{N}(x; \mu, \sigma^2)$ 。

高斯分布的乘法与加法

对(标准)高斯分布 $\mathcal{N}(0, 1)$ 做乘法，乘以 $\sigma$ ，得到一个新的高斯分布， $\mathcal{N}(0, \sigma^2)$ 。
对(标准)高斯分布 $\mathcal{N}(0, 1)$ 做加法，加上 $\mu$ ，得到一个新的高斯分布， $\mathcal{N}(\mu, 1)$ 。
两个高斯分布 $\mathcal{N}(0, \sigma_1^2)$ ， $\mathcal{N}(0, \sigma_2^2)$ 相加，得到一个新的高斯分布， $\mathcal{N}(0, \sigma_1^2 + \sigma_2^2)$ 。

重参数化技巧

对高斯分布 $\mathcal{N}(\mu, \sigma^2)$ 进行采样一个噪声 $\epsilon$ ，等价于先从标准高斯分布 $\mathcal{N}(0, 1)$ 中采样得到一个噪声 $\mathbf{z}$ ，乘以标准差 $\sigma$ ，加上均值 $\mu$ ，即： $\epsilon = \mu + \mathbf{z} \cdot \sigma$ 。进行这一转化是为了方便网络训练。

III. 引言

什么是Denoising Diffusion Probabilistic Models，去噪扩散概率模型呢？

还是按照最小白的理解，diffusion其实也是一个深度网络(比方说Attention UNet)，其输入是一个"噪声"，而输出则是一种我们想要的有意义的数据(比如看起来十分真实的图像)。从这个角度看，diffusion很像另一种常见的生成模型，GAN。一般来讲，对于(非条件)GAN，同样是输入一个噪声，然后得到一个我们想要的东西。

那么diffusion模型是怎么工作的呢？对于GAN，我们知道会有个判别器，通过对抗训练的方式，让生成器逐渐学会将输入的噪声转化为有价值的信息。而diffusion的思想可以理解如下：

对于随机采样得到的一个标准高斯噪声，我们认为，其并不完全是噪声，里面其实还是有特别的信息的。比如说，我们随便找一张图像，往其中不断加入标准高斯噪声，最终图像会被噪声给淹没，但是原始的信息可以认为仍保留在最终得到的噪声中。那么现在，如果我们能设计一个神经网络，去学习「去噪」(denoising)，完成上述加噪声过程的逆过程(去噪声)；那么，对于任意采样得到的一个新标准高斯噪声，我们就可以通过去噪过程来恢复出其中原本存在的有价值信息(比方说看起来十分逼真的图像)。

正式一点的说法对应着下图：
在这里插入图片描述
diffusion模型包含两个过程：

「逆向过程(Reverse Process)」：也就是去噪(denoising diffusion)过程。从新鲜采样的标准高斯噪声 $\mathbf{x}_T$ 中，让网络对其逐步去噪，得到 $\mathbf{x}_{T-1}$ ， $\mathbf{x}_{T-2}，...$ ，最终得到没有噪声的逼真图像 $\mathbf{x}_0$ 。这一过程也对应着网络的测试，推理过程。
「前向过程(Forward Process)」：也就是加噪过程，扩散(diffusion)过程。对于给定的现实世界中存在的真实图像 $\mathbf{x}_0$ ，我们对其一步步加噪声，得到 $\mathbf{x}_1$ ， $\mathbf{x}_2$ ，…，最后得到完全的高斯噪声 $\mathbf{x}_T$ 。前向过程的存在意义是帮助神经网络去学习逆向过程，也就是训练用的。更仔细想想的话，前向过程里得到的噪声其实就是"生成标签"的过程，因为在这一过程中，我们已经有了真实的图像，并且生成了真实图像加噪后的结果；那么自然就可能让网络学习这样一个映射，即从有噪声的图像中恢复原始图像。

接下来具体来看下前向过程和逆向过程。

IV. 前向过程 Forward Process

前向过程也称为扩散过程，将真实数据逐步变成噪声。

比方说，给定一张原始图像 $\mathbf{x}_0$ ，我们对其加一次「标准」高斯噪声 $\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})$ ，得到 $\mathbf{x}_1$ 。记 $\mathbf{x}_i$ 为对原始图像加 $i$ 次噪声后的结果，可以发现，当 $i$ 足够大的时候，数据会被高斯噪声淹没，变成纯正的高斯噪声。

现在就涉及到了第一个问题，加多少次噪声？在文中，其由一个超参数 $T$ 控制，即步数。原文 $T = 1000$ ，即对原始图像加1000次噪声后，其会变成完全的高斯噪声。

接下来是第二个问题，噪声怎么加？因为加噪过程本质是加权和，比如 $0.8 \times I ma g e + 0.1 \times N o i se$ ，会涉及到一个权重的问题(注意，我们后面会看到，图像的权重与噪声的权重相加并不需要为1)。在文章中，噪声的这个权重有个专有的名词，叫做扩散率，记为 $\beta$ ，比如可以从 $0.0001$ 逐步插值到 $0.02$ 。从这里可以看到，加噪是一个逐步的过程，对图像原有的信息是慢慢破坏的(扩散率很低)。这样主要是为了方便网络在逆扩散过程中学习去噪，如果对信息一次破坏太多那么网络可能就无法学会怎么去复原了。

而为什么扩散率是逐渐增大的呢？其实可以反过来理解，在加噪声的过程中，扩散率逐渐增大，对应着在去噪声的过程中，扩散率逐渐减小——也就是说，去噪的过程是先把"明显"的噪声给去除，对应着较大的扩散率；当去到一定程度，逐渐逼近真实真实图像的时候，去噪速率逐渐减慢，开始微调，也就是对应着较小的扩散率。

解决了这两个问题后，我们就可以来看扩散过程的初步数学定义了。给定当前具有一定噪声的图像 $\mathbf{x}_{t-1}$ ，加入标准高斯噪声噪声 $\mathbf{z}_{t-1} \sim \mathcal{N}(0, \mathbf{I})$ ，得到进一步加噪的图像 $\mathbf{x}_t$ ，有：

> 重要公式 1 < $\mathbf{x}_t=\sqrt{1-\beta_t} \mathbf{x}_{t-1}+\sqrt{\beta_t} \mathbf{z}_{t-1}$ > 重要公式 1 <

这个东西其实就是上面我们提到的 $a \times I ma g e + b \times N o i se$ ，其中 $I ma g e$ 为 $\mathbf{x}_{t - 1}$ ， $N o i se$ 为 $\mathbf{z}_{t-1}$ 。

其实有了上面这个式子，对于编程实现来说就已经足够了…不过大多数文章非常喜欢提下面这个式子，也就是概率分布的形式： $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)$ 需要注意的是 $\mathbf{x}_t=\sqrt{1-\beta_t} \mathbf{x}_{t-1}+\sqrt{\beta_t} \mathbf{z}_{t-1}$ 和 $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)$ 是等价的。具体来说，参考前置知识中的「重参数化技巧」，我们知道 $\epsilon = \mu + \mathbf{z} \cdot \sigma$ 表述的就是从 $\epsilon \sim \mathcal{N}(\mu, \sigma^2)$ 中采样的过程。据此，同样就可以将 $\mathbf{x}_t$ 改写为从 $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)$ 中采样的形式。

当然，如果进行一些更人话的理解，则有：

因为加噪是一个带有随机性的过程(噪声是随机的)，所以 $\mathbf{x}_t$ 是可以写成概率分布形式的，即 $q(\mathbf{x}_t)$ ，并且该分布是一个高斯分布 $\mathcal{N}$ (加的是高斯噪声)。
又因为是给定了 $\mathbf{x_{t-1}}$ ，才能知道 $\mathbf{x_{t}}$ ，所以这个分布还是一个条件分布，即 $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)$ 。
此外，这个高斯分布是有关于当前变量 $\mathbf{x}_t$ 的条件分布，因此会记作 $\mathcal{N}(\mathbf{x}_t; a, b)$ 而非 $\mathcal{N}(a, b)$ 。
关于 $\beta_t$ ，之前提到了扩散率 $\beta$ 是插值得到的，会不断变化，因此落实到加噪第 $t$ 步过程的 $\beta$ 则记为 $\beta_t$ 。

现在来解决本章的最后一个问题。给定原始图像 $\mathbf{x}_0$ ，能不能一步计算得到加噪任意 $t$ 次后的 $\mathbf{x}_t$ ?答案是可以的，这里首先直接给出结论：

> 重要公式 2 < $\mathbf{x}_{t} = \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\tilde{\mathbf{z}}_t$ > 重要公式 2 <

其中 $\alpha_t = 1 - \beta_t$ ， $\bar{\alpha_t} = \alpha_1 × ... × \alpha_t = \prod \limits_{i=1}^t \alpha_i$ ， $\tilde{\mathbf{z}}_t \sim \mathcal{N}(0, \mathbf{I})$ 。这样，当我们想求一个 $t$ 很大的 $\mathbf{x_t}$ 时，就省去了逐步模拟的麻烦。从这里可以发现，当 $t$ 很大时， $\sqrt{\bar{\alpha}_t}$ 会很接近 $0$ ，最终的结果 $\mathbf{x}_t$ 几乎完全由噪声 $\tilde{\mathbf{z}}_t$ 所取代，但仍然保留了十分微弱的原始图像 $\mathbf{x}_0$ 。也就是说，只要方法巧妙，理论上还是可以通过逐步去噪来把 $\mathbf{x}_t$ 中隐藏的 $\mathbf{x}_0$ 给搞到手的。

关于 $\mathbf{x}_{t} = \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\tilde{\mathbf{z}}_t$ 的推导，其实只要老老实实从 $\mathbf{x}_{t}$ 变到 $\mathbf{x}_{t-1}$ ， $\mathbf{x}_{t-2}$ …一直反复代入进去即可，相对较为简单。对推导不感兴趣的以下部分可以跳过，不影响对其他部分的理解。

> 推导开始 <

$\begin{aligned} \mathbf{x}_t &=\sqrt{\alpha_t} \mathbf{x}_{t-1}+\sqrt{1-\alpha_t} \mathbf{z}_{t-1} \\ &=\sqrt{\alpha_t \alpha_{t-1}} \mathbf{x}_{t-2}+\sqrt{\alpha_t\left(1-\alpha_{t-1}\right)} \mathbf{z}_{t-2}+\sqrt{1-\alpha_t} \mathbf{z}_{t-1} \\ &=\sqrt{\alpha_t \alpha_{t-1}} \mathbf{x}_{t-2}+\sqrt{1-\alpha_t \alpha_{t-1}} \bar{\mathbf{z}}_{t-2} \\ &=\ldots \\ &=\sqrt{\bar{\alpha}_t} \mathbf{x}_0+\sqrt{1-\bar{\alpha}_t} \tilde{\mathbf{z}}_t \end{aligned}$ 上面式子中各种 $\mathbf{z}$ 的变体都满足标准高斯分布 $\mathcal{N}(0, 1)$ 。第一行到第二行就是把 $\mathbf{x}_{t-1} =\sqrt{\alpha_{t-1}} \mathbf{x}_{t-2}+\sqrt{1-\alpha_{t-1}} \mathbf{z}_{t-2}$ 给换进去。主要比较难理解的地方在于第二行到第三行， $\sqrt{\alpha_t\left(1-\alpha_{t-1}\right)} \mathbf{z}_{t-2}+\sqrt{1-\alpha_t} \mathbf{z}_{t-1}$ 是怎么变成 $\sqrt{1-\alpha_t \alpha_{t-1}}\bar{\mathbf{z}}_{t-2}$ 的。

具体来说， $\sqrt{\alpha_t\left(1-\alpha_{t-1}\right)} \mathbf{z}_{t-2}$ 其实就是 $\mathcal{N}(0, \alpha_t(1-\alpha_{t-1}))$ ， $\sqrt{1-\alpha_t} \mathbf{z}_{t-1}$ 其实就是 $\mathcal{N}(0, 1-\alpha_t)$ ，两者相加，得到 $\mathcal{N}(0, 1-\alpha_{t}\alpha_{t-1})$ ，也就是 $\sqrt{1-\alpha_t \alpha_{t-1}} \bar{\mathbf{z}}_{t-2}$ 。这里不同形式的 $\mathbf{z}$ 单纯是起「区分」作用，本质上同属于一个分布 $\mathcal{N}(0, \mathbf{I})$ 下的「不同」采样。

> 推导结束 <

> 本章小结 <
总结一下，扩散过程就是给定原始图像 $\mathbf{x}_0$ ，获取其加入不同次噪声后的结果 $\mathbf{x}_t$ 的过程。这些 $\mathbf{x}_t$ 将作为标签，帮助网络学会如何从纯噪声 $\mathbf{x}_T$ 中一步一步去噪，最终恢复出真实图像 $\mathbf{x}_0$ 。

V. 逆扩散过程 Reverse Process

扩散过程是从原始数据 $\mathbf{x}_0$ 逐渐加噪声变成 $\mathbf{x}_T$ 。所谓逆扩散过程，也就是从 $\mathbf{x}_T$ 逐步给回到 $\mathbf{x}_0$ ，即求： $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_t})$ 也就是说，现在我们知道了带噪声的数据 $\mathbf{x}_t$ ，想要知道其去掉一次噪声后的 $\mathbf{x}_{t-1}$ 是什么样的。去得噪声足够多，最后没有噪声，自然就回到了我们的原始数据 $\mathbf{x}_0$ 。

那 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_t})$ 怎么求呢？可以发现，加噪过程 $q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1}})$ 我们是知道的，因此利用贝叶斯公式的思想，有： $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}}) = \frac{q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1}})×q(\mathbf{x}_{t-1})}{q({\mathbf{x}_t})}$ 现在就出现了一个问题，虽然 $q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1}})$ 我们是知道了，但是 $q(\mathbf{x}_{t})$ 和 $q(\mathbf{x}_{t-1})$ 我们不知道。这里需要特别注意的是，当 $T$ 足够大的时候，可以认为 $q(\mathbf{x}_T)$ 就是标准高斯噪声，这个我们是可以知道的；而由于 $t$ 我们并不知道是多少，可能是个很小的值，这种情况下 $q(\mathbf{x}_t)$ 中包含了大量的原始图像信息，因此 $q(\mathbf{x}_t)$ 我们是不知道的。

要想知道加了一定噪声的图像 $q(\mathbf{x}_t)$ 和 $q(\mathbf{x}_{t-1})$ ，自然就依赖于一个先决条件，没加噪声的图像 $q(\mathbf{x_0})$ 。换句话说， $q(\mathbf{x}_t \mid \mathbf{x_0})$ 和 $q(\mathbf{x}_{t-1} \mid \mathbf{x_0})$ 我们是知道的，因此对式子 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}}) = \frac{q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1}})×q(\mathbf{x}_{t-1})}{q({\mathbf{x}_t})}$ 再加上一个条件 $\mathbf{x_0}$ ，得到一个多元条件分布，有： $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0}) = \frac{q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1} , \mathbf{x}_0})×q(\mathbf{x}_{t-1} \mid \mathbf{x}_0)}{q({\mathbf{x}_t} \mid \mathbf{x}_0)}$ 其实上面这个式子还可以继续变一下。由于扩散过程是一个马尔可夫过程，因此 $\mathbf{x}_t$ 只和 $\mathbf{x}_{t-1}$ 有关，和 $\mathbf{x}_0$ 无关，即 $q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1} , \mathbf{x}_0}) = q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1}})$ ，有： $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0}) = \frac{q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1} })×q(\mathbf{x}_{t-1} \mid \mathbf{x}_0)}{q({\mathbf{x}_t} \mid \mathbf{x}_0)}$ 细心的读者可以发现一个问题，在测试阶段， $\mathbf{x}_0$ 本身是我们要求的东西，是未知的；因此上面这个式子只有在训练阶段 $\mathbf{x}_0$ 已知的情况下才能运行起来。为了让测试阶段也能用，我们对上面这个式子进行进一步的分析，「看看能不能把 $\mathbf{x}_0$ 给消除掉」。如果能消除，就不用陷入这种要算 $\mathbf{x}_0$ 必须知道 $\mathbf{x}_0$ 的套娃情况了。根据上一章的重要公式1，2：

$q(\mathbf{x}_{t} \mid \mathbf{x}_{t-1})$ 等价于 $\mathbf{x}_{t} = \sqrt{{\alpha}_{t}}\mathbf{x}_{t-1} + \sqrt{1 - {\alpha}_{t}}\mathbf{z}_{t-1}$ 。写成分布的形式，有 $\mathcal{N}(\mathbf{x}_t;\sqrt{{\alpha}_{t}}\mathbf{x}_{t-1}, 1 - {\alpha}_{t})$ 。进一步写成概率密度函数的形式，有 $q(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}) \propto \exp(-\frac{1}{2}\frac{(\mathbf{x}_t - \sqrt{{\alpha}_{t}}\mathbf{x}_{t-1})^2}{1 - {\alpha}_{t}}) = \exp(-\frac{1}{2}\frac{(\mathbf{x}_t - \sqrt{{\alpha}_{t}}\mathbf{x}_{t-1})^2}{{\beta}_{t}})$ 。
$q(\mathbf{x}_{t-1} \mid \mathbf{x}_0)$ 等价于 $\mathbf{x}_{t-1} = \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1}}\tilde{\mathbf{z}}_{t-1}$ 。写成分布的形式，有 $\mathcal{N}(\mathbf{x}_{t-1};\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0, 1 - \bar{\alpha}_{t-1})$ 。进一步写成概率密度函数的形式，有 $q(\mathbf{x}_{t-1} \mid \mathbf{x}_0) \propto \exp(-\frac{1}{2}\frac{(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0)^2}{1 - \bar{\alpha}_{t-1}})$ 。
$q(\mathbf{x}_t \mid \mathbf{x}_0)$ 等价于 $\mathbf{x}_{t} = \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\tilde{\mathbf{z}}_t$ 。写成分布的形式，有 $\mathcal{N}(\mathbf{x}_{t}; \sqrt{\bar{\alpha}_t}\mathbf{x}_0, 1 - \bar{\alpha}_t)$ 。进一步写成概率密度函数的形式，有 $q(\mathbf{x}_t \mid \mathbf{x}_0) \propto \exp(-\frac{1}{2}\frac{(\mathbf{x}_{t} - \sqrt{\bar{\alpha}_t}\mathbf{x}_0)^2}{1 - \bar{\alpha}_t})$ 。

这里为什么要把概率密度函数的形式给拿出来呢？其实是方便运算。这里先给出一个简单的结论，两个分布相乘，可以认为就是对其密度函数相加；两个分布相除，可以认为就是对其密度函数相减。因此， $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0}) = q(\mathbf{x}_{t} \mid {\mathbf{x}_{t-1} })×q(\mathbf{x}_{t-1} \mid \mathbf{x}_0) / q({\mathbf{x}_t} \mid \mathbf{x}_0)$ ，写成密度函数的形式，有： $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0}) \propto \exp(-\frac{1}{2} [\frac{(\mathbf{x}_t - \sqrt{{\alpha}_{t}}\mathbf{x}_{t-1})^2}{{\beta}_{t}} + \frac{(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0)^2}{1 - \bar{\alpha}_{t-1}} - \frac{(\mathbf{x}_{t} - \sqrt{\bar{\alpha}_t}\mathbf{x}_0)^2}{1 - \bar{\alpha}_t}])$ 现在，我们要对上面这个式子进行进一步的整理，看看能不能搞出什么有用的东西来。那么就先把括号里的平方展开来试一试： $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0}) \propto \exp(-\frac{1}{2} [\frac{\mathbf{x}_t^2 - 2\sqrt{{\alpha}_{t}}\mathbf{x}_t\mathbf{x}_{t-1} +{{\alpha}_{t}}\mathbf{x}_{t-1}^2}{{\beta}_{t}} + \frac{\mathbf{x}_{t-1}^2 - 2\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0\mathbf{x}_{t-1} + \bar{\alpha}_{t-1}\mathbf{x}_0^2}{1 - \bar{\alpha}_{t-1}} - \frac{\mathbf{x}_{t}^2 -2\sqrt{\bar{\alpha}_t}\mathbf{x}_0\mathbf{x}_{t} + \bar{\alpha}_t\mathbf{x}_0^2}{1 - \bar{\alpha}_t}])$ 接下来的操作就是比较有技巧性的了。回到最初的问题，我们这一通化简，都是为了求于 $\mathbf{x}_{t-1}$ 有关的条件分布 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0})$ 。基于这一直觉，我们把上式的 $\mathbf{x}_{t-1}$ 给提取整理出来，有： $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0}) \propto \exp (-\frac{1}{2}[(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}) \mathbf{x}_{t-1}^2-(\frac{2 \sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t+\frac{2 \sqrt{\bar{a}_{t-1}}}{1-\bar{\alpha}_{t-1}} \mathbf{x}_0) \mathbf{x}_{t-1}+C(\mathbf{x}_t, \mathbf{x}_0)])$ 注意，上面这个式子中， $C(\mathbf{x}_t, \mathbf{x}_0)$ 其实就是 $\frac{\mathbf{x}_{t}^2 -2\sqrt{\bar{\alpha}_t}\mathbf{x}_0\mathbf{x}_{t} + \bar{\alpha}_t\mathbf{x}_0^2}{1 - \bar{\alpha}_t}$ ，即 $q({\mathbf{x}_t} \mid \mathbf{x}_0)$ 。因为上面这步化简的目的是将概率密度函数视为以 $\mathbf{x}_{t-1}$ 为自变量的函数，而 $\frac{\mathbf{x}_{t}^2 -2\sqrt{\bar{\alpha}_t}\mathbf{x}_0\mathbf{x}_{t} + \bar{\alpha}_t\mathbf{x}_0^2}{1 - \bar{\alpha}_t}$ 里面不包含 $\mathbf{x}_{t-1}$ ，所以就将其视为常量 $C$ 了。 (此段表述有误，正确理解请参考评论区)

那么上面这个整理的式子究竟有什么用呢？回顾下，以 $x$ 为自变量的高斯分布 $\mathcal{N}(x; \mu, \sigma^2)$ ，其概率密度函数正比于 $\exp(-\frac{1}{2}\left(\frac{1}{\sigma^2} x^2-\frac{2 \mu}{\sigma^2} x+\frac{\mu^2}{\sigma^2}\right))$ 。可以发现，上面式子中 $\mathbf{x}_{t-1}^2$ 与 $\mathbf{x}_{t-1}$ 的系数，其中就包含了 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0})$ 这个「高斯分布」中均值与方差的信息。注意，逆向过程 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0})$ 与前向过程一样，同样是一种「高斯分布」，但是对其进行证明不在本文的讨论之内，这里直接当做结论来使用。

现在，我们就尝试将 $\mathbf{x}_{t-1}$ 的均值和方差给求出来。根据 $\mathcal{N}(x; \mu, \sigma^2) \propto \exp(-\frac{1}{2}\left(\frac{1}{\sigma^2} x^2-\frac{2 \mu}{\sigma^2} x+\frac{\mu^2}{\sigma^2}\right))$ ，我们发现，方差 $\sigma^2$ 就是 $x^2$ 系数的倒数；而 $\mathbf{x}^2_{t-1}$ 的系数为 $\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}}$ ，可以发现，完全只由人工确定的超参数 $\alpha$ 和 $\beta$ 所确定，因此方差是已知的。而对于均值，其值与 $\mathbf{x}_{t-1}$ 的系数 $\frac{2 \sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t+\frac{2 \sqrt{\bar{a}_{t-1}}}{1-\bar{\alpha}_{t-1}} \mathbf{x}_0$ 有关。可以发现，除了已知量 $\alpha$ ， $\beta$ ， $\mathbf{x}_t$ ，依然包含着我们想要消除的项 $\mathbf{x}_0$ 。

现在，我们将均值 $\mu$ 写成一个关于 $\mathbf{x}_t$ 与 $\mathbf{x}_0$ 的函数，记做 $\tilde{\boldsymbol{\mu}}_t\left(\mathbf{x}_t, \mathbf{x}_0\right)$ 。通过代入 $\sigma^2$ 求解 $\frac{2 \mu}{\sigma^2} = \frac{2 \sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t+\frac{2 \sqrt{\bar{a}_{t-1}}}{1-\bar{\alpha}_{t-1}} \mathbf{x}_0$ ，我们可以得到： $\tilde{\boldsymbol{\mu}}_t\left(\mathbf{x}_t, \mathbf{x}_0\right)=\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_t} \mathbf{x}_t+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} \mathbf{x}_0$ 做到这一步，我们已经把求解 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}, \mathbf{x}_0})$ 这一复杂的问题，转化为怎么去求解该分布的均值 $\mu$ 的问题。而要求 $\mu$ 的话，就得想办法把复杂的 $\mathbf{x}_0$ 给消掉或简化，有没有办法把 $\mathbf{x}_0$ 化简成一个更容易看懂的形式呢？

答案是有的。可以发现重要公式2里面有 $\mathbf{x}_0$ ： $\mathbf{x}_{t} = \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\tilde{\mathbf{z}}_t$ 我们直接把 $\mathbf{x}_0$ 给移到等式左边来… $\mathbf{x}_0=\frac{1}{\sqrt{\bar{\alpha}_t}}\left(\mathbf{x}_t-\sqrt{1-\bar{\alpha}_t} \tilde{\mathbf{z}}_t\right)$ 然后把 $\mathbf{x}_0$ 给代回去…

> 重要公式3 < $\boldsymbol{\tilde{\mu}}_t(\mathbf{x}_t)=\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1 - \alpha_t}{\sqrt{1-\bar{\alpha}_t}} \tilde{\mathbf{z}}_t\right)$ > 重要公式3 <

这样就把 $\mathbf{x}_0$ 给消掉了。也就是说，只要知道了 $\tilde{\mathbf{z}}_t$ ，我们就可以把 $\boldsymbol{\tilde{\mu}}_t$ 给算出来，进而得到 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}})$ ，采样出 $\mathbf{x}_{t-1}$ ，完成去噪的过程。

但问题是， $\tilde{\mathbf{z}}_t$ 本身也是训练阶段，加噪过程中涉及到的东西。在测试阶段，对于一个全新采样的噪声，我们并不知道其是由一张图像与具体哪个高斯噪声给合成出来的(采样有无数种可能)。而且，从数学推导的角度， $\tilde{\mathbf{z}}_t$ 作为一个噪声，已经非常原子了，没法将其转换成更易获得的形式。

至此，就该请出深度学习了，神经网络最擅长的就是这种人解不出但是可以通过算法去逼近的东西。也就是说，要设计一个网络 $\boldsymbol{\epsilon}(\mathbf{x}_t, t)$ ，我们希望其能够预测 $\tilde{\mathbf{z}}_t$ 。

网络的输入为当前图像 $\mathbf{x}_t$ 与加噪步数 $t$ 。这里需要 $t$ ，可以理解为只有在知道 $t$ 的情况下才存在 $\mathbf{x}_t$ 的说法。
有了这个噪声 $\tilde{\mathbf{z}}_t$ ，我们就能求出高斯分布 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}})$ 的均值 $\mu$ 与方差 $\sigma$ (方差可以直接由超参数计算得到)。
有了分布 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_{t}})$ ，就可以在知道当前阶段图像 $\mathbf{x}_{t}$ 的情况下，采样得到去噪图像 $\mathbf{x}_{t-1}$ 了。

> 本章小结 <
已知当前图像 $\mathbf{x}_t$ ，获得去噪一步后的图像 $\mathbf{x}_{t-1}$ 的过程，用概率的形式写作 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_t})$ 。用贝叶斯公式对其处理后，我们发现，必须在知道 $\mathbf{x}_0$ 的情况下才能求解 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_t})$ ，而 $\mathbf{x}_0$ 本身是去噪的最终目的，因此看起来构成了死循环。所以，我们尝试将 $\mathbf{x}_0$ 进行变形消除，最后发现只要能够求到一个噪声 $\tilde{\mathbf{z}}_t$ ，就能够对 $q(\mathbf{x}_{t-1} \mid {\mathbf{x}_t})$ 进行模拟，完成逆扩散过程。

其实最后网络要预测的是一个噪声，这一结论也非常符合直觉。因为 $\mathbf{x}_{t}$ 本身是加噪声得到的，那么我们如果知道加的噪声是啥，自然能把这一过程反过来。

VI. 网络训练 Network Training

对应着原文这么一张图：
在这里插入图片描述
对于每次迭代：
2 => 随机选择一张图像。从数学的角度讲，叫做从真实图像分布 $q(\mathbf{x_0})$ 中采样得到一个样本 $\mathbf{x_0}$ 。
3 => 随机选择一个前向步数(加噪声次数) $t$ 。这个 $t$ 是从最小步数 $1$ 和最大步数 $T$ 中随机抽出来的。从数学的角度讲，叫从均匀分布 $\sim T$ 中采样。
4 => 随机生成一个标准高斯噪声 $\epsilon$ 。从数学的角度讲，叫做从标准高斯分布 $\mathcal{N}(0, \mathbf{I})$ 中采样。
5 => 计算训练时损失(也就是"进行梯度下降步骤")。而 $a - b||^2$ 其实就是最常见的均方误差损失函数(Mean Square Loss)。
既然是损失函数，肯定就有一个真值和一个网络的预测值。这里的真值就是实时生成的随机噪声 $\epsilon$ ，而网络预测值则是这么坨东西： $\boldsymbol{\epsilon}_\theta\left(\sqrt{\bar{\alpha}_t} \mathbf{x}_0+\sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}, t\right)$ $\sqrt{\bar{\alpha}_t} \mathbf{x}_0+\sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}$ 是什么含义呢？回忆重要公式2： $\mathbf{x_t} = \sqrt{\bar{\alpha}_t} \mathbf{x}_0+\sqrt{1-\bar{\alpha}_t} \tilde{\mathbf{z}}_t$ 而这个 $\tilde{\mathbf{z}}_t$ 和 $\epsilon$ 同样都是标准高斯噪声。也就是说， $\sqrt{\bar{\alpha}_t} \mathbf{x}_0+\sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}$ 其实就是 $\mathbf{x_t}$ 。至此，损失函数变成了个这样的东西： $||\epsilon - \boldsymbol{\epsilon}_\theta\left(\mathbf{x_t}, t\right)||^2$ 翻译成人话就是，对于2，3步拿到的原始图像 $\mathbf{x_0}$ 和加噪次数 $t$ ，利用前向过程能够直接推出加噪结果 $\mathbf{x_t}$ 出来。现在有一个网络 $\epsilon_\theta$ ，我们希望其在输入加噪结果 $\mathbf{x_t}$ 和加噪次数 $t$ 后，能够预测到一个「合适的」标准高斯噪声，也就是我们在重要公式3中所未知的 $\tilde{\mathbf{z}}_t$ 。

> 本章小结 <
训练阶段的动机其实是比较难理解的。这里给出我个人的一种解读，可能有误。

一个很难想明白的地方在于，网络为什么要去预测一个标准高斯噪声？直观来讲，这种东西我们直接从标准高斯分布中直接采样就可以了，为什么还要单独设计一个网络去学。要想理解这一点，我们将损失函数的表达式重新展开来，把 $\epsilon$ 替换成我们熟悉的 $\tilde{\mathbf{z}}_t$ ；此外，由于训练阶段的 $\mathbf{x}_t$ 是由 $\mathbf{x}_0$ 和 $t$ 直接求出来的，因此我们也进行相应的替换，最终我们可以把： $||\boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta\left(\sqrt{\bar{\alpha}_t} \mathbf{x}_0+\sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}, t\right)||^2$
重新改写为： $||\tilde{\mathbf{z}}_t - \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_0, t, \tilde{\mathbf{z}}_t\right)||^2$ 这么写有什么好处呢？我们可以发现一个有趣的事实，在训练阶段，网络去猜测这个 $\tilde{\mathbf{z}}_t$ 并不是凭空的，而是事实上已经将 $\tilde{\mathbf{z}}_t$ 和 $\mathbf{x}_0$ 给混在了一起，得到了一个混沌，然后让网络去从混沌中把 $\tilde{\mathbf{z}}_t$ 给重新"捞出来"。

举个例子就是，与其说 $\boldsymbol{\epsilon}_\theta$ 是一个所谓的什么去噪网络，不如说是「沙里淘金」：

图像是金，噪声是沙子。在训练阶段，我们把金和沙子混在一起(加噪)，让网络学习怎么去把沙子从混合物中给重新分离出来(预测噪声)。至于为什么不是直接把金给拿出来…这是上一章的推导决定的，求噪声要比求图像远远更容易；换句话说，如果是直接淘金，那么网络可能淘个成百上千次，准确率仍然是0，因此很难训练，所以才是淘沙。

从这里发现，网络学到的如何淘沙子的知识，是来源于沙子和金的混合物的，受原有的金(图像)的影响。这就导致，网络在猫图像上训练的去噪网络，对于一个新噪声而言去噪也只能得到各种猫，因为在训练阶段真实分布的信息被嵌入了网络中。

而在测试阶段，相当于仍是有一堆混在一起的金和沙子，这个时候没有标准答案，网络是凭借着自己的训练阶段学到的知识把沙子给淘出来，进而「间接」完成淘金的过程。

VII. 网络推理 Network Testing

对应着原文这么一张图：
在这里插入图片描述
1 => 从标准高斯分布中采样得到一个噪声。由于原始图像 $\mathbf{x}_0$ 在加 $t$ 次噪声后得到的东西也是一个标准高斯噪声，因此这里采样的得到的我们将其记为 $\mathbf{x}_T$ 。
2 => 进行 $T$ 次逆扩散过程，将图像从高斯噪声 $\mathbf{x}_T$ 中恢复出来。对于每次逆扩散过程：
3 => 随机采样一个标准高斯噪声 $\mathbf{z}$ 。注意在最后一步的时候我们就不采样了， $\mathbf{z} = 0$ ，这算是一个trick…不管这一技巧并不影响对整体的理解。
4 => 通过公式计算得到去噪一次的结果，也就是这么个东西： $\mathbf{x}_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)+\sigma_t \mathbf{z}$ 这个式子的理解依旧是参考前置知识中的「重参数化技巧」。从分布的角度，比方说，从 $\mathcal{N}(\mu, \sigma^2)$ 中采样得到一个 $\epsilon$ ，写成数学表达式就是： $\epsilon= \mu + \mathbf{z} \cdot \sigma$ 其中 $\mathbf{z}$ 为标准高斯噪声。根据重要公式3，我们知道高斯分布 $q(\mathbf{x}_{t-1} \mid \mathbf{x}_t)$ 的均值 $\mu_{t}$ 为 $\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1 - \alpha_t}{\sqrt{1-\bar{\alpha}_t}} \tilde{\mathbf{z}}_t\right)$ ，再加上方差 $\sigma_t^2$ (可以由超参数 $\alpha$ 和 $\beta$ 直接求得)，有：
$q(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}) \sim \mathcal{N}(\frac{1}{\sqrt{\alpha_t}}(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \tilde{\mathbf{z}}_t, \sigma_t^2)$ 而 $\tilde{\mathbf{z}}_t$ 的话，其实就是网络 $\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$ 能够预测的东西，直接替换掉就行。从分布 $q(\mathbf{x}_{t-1} \mid \mathbf{x}_{t})$ 中采样得到 $\mathbf{x}_{t-1}$ ，有： $\mathbf{x}_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{x}_t, t\right)\right)+\sigma_t \mathbf{z}$

> 本章小结 <
训练阶段得到的网络能够对 $\tilde{\mathbf{z}}_t$ 进行预测，从而使得我们能在知道 $\mathbf{x}_{t}$ 的情况下，从分布 $q(\mathbf{x}_{t-1} \mid \mathbf{x}_{t})$ 中采样得到 $\mathbf{x}_{t-1}$ ，逐步完成去噪过程。