解析扩散模型：反向过程的奥秘是什么？

本文链接：https://blog.csdn.net/qq_28356373/article/details/138964160

很早之前就新建了一个专栏从0开始弃坑扩散模型,但发了一篇文章就没有继续这一系列，在这个AIGC的时代，于是我准备重启这个专栏。
整个专栏的学习顺序可以见这篇汇总文章

这是本专栏的第三章

引言

在反向过程，模型会训练一个神经网络，例如(UNet)。UNet逆转每一步加噪声的操作，从而使纯噪声图像逐步恢复为数据集中的真实图像。
这里许多文章给了很麻烦的损失函数计算，给了很多劝退的步骤。我们学习扩散模型的目标不是改进扩散模型，而是使用扩散模型的结构，就算看懂了也没有必要，因为要去改进扩散模型，你就要去创建和研究更多的数学公式。这些人的文章对初学者造成了极大的负担！！！差评。
正向过程也称为扩散过程，反向过程是逆扩散过程。这里提一下，因为看很多人的文章讲法不一。

训练时候正向反向都是有的，但只有反向才计算损失的。
推理时候只有反向过程，在推理时候，就从标准正态分布中采样得到的任意噪声图像转换成与训练数据相似的图像，从而实现图像生成的目标。

概率角度

好了，步入正题。
我们从概率的角度来理解反向过程：扩散模型全称在前面提过和概率有关，所以前面的公式可以变成 $q(\mathbf{x}_{t} | \mathbf{x}_{t-1})$ ，这就是一个条件概率，它的意思是说已知 $x_{t-1}$ 求解 $x_{t}$ 的概率即正态分布，那么逆一下，反向过程的概率公式就是 $q(\mathbf{x}_{t-1} | \mathbf{x}_{t})$ ，我们求的是这玩意，这里，聪明的别人已经想到了使用贝叶斯公式求解： $q(\mathbf{x}_{t-1} | \mathbf{x}_{t})=q(\mathbf{x}_{t} | \mathbf{x}_{t-1})\frac{q(\mathbf{x}_{t-1}）}{q(\mathbf{x}_{t}）}$ ，然后等式两边同时引用 $x_0$ 添加约束条件，这样这个贝叶斯公式就都有约束条件了。
$q(\mathbf{x}_{t-1} | \mathbf{x}_{t},\mathbf{x}_{0})=q(\mathbf{x}_{t} | \mathbf{x}_{t-1},\mathbf{x}_{0})\frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{0})}{q(\mathbf{x}_{t}|\mathbf{x}_{0})}$ ，这个等式是否有道理？我们可以使用条件概率公式 $q(\mathbf{A} | \mathbf{B})=\frac{q(\mathbf{A,B})}{q(\mathbf{B})}$ 验证：
$q(\mathbf{x}_{t} | \mathbf{x}_{t-1},\mathbf{x}_{0})\frac{q(\mathbf{x}_{t-1}|,\mathbf{x}_{0})}{q(\mathbf{x}_{t}|,\mathbf{x}_{0})}\\=\frac{q(X_t , X_{t-1}, X_0)}{q(X_{t-1}, X_0)} \frac{\frac{q(X_{t-1} , X_0)}{q( X_0)}}{\frac{q(X_{t} , X_0)}{q( X_0)}} = \frac{q(X_t ,X_{t-1}, X_0)}{q(X_t , X_0)} = q(X_{t-1} | X_t, X_0)$
其中已知的有

$q(\mathbf{x}_{t} | \mathbf{x}_{t-1},\mathbf{x}_{0})$ 这个公式表示已知 $x_{t-1}$ 和 $x_{0}$ 去计算 $x_{t}$ ，这里 $x_0$ 的存在是为了解释后面，这里的计算用不到 $x_0$ 的，上面正向过程提到有 $x_{t-1}$ 就可以计算 $x_{t}$ 。
$q(x_t|x_0)$ 的意思是已知 $x_{0}$ 去求 $x_{t}$ ，这个公式在前面通过不断迭代也是已知的。
$q(x_{t-1}|x_0)$ 这个把上面的 $x_{t}$ 换成 $x_{t-1}$ ，公式就又出来了
此外，这里的概率和正态分布是可以联系起来的，举最简单的例子， $q(x_t|x_0)=\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}\mathbf{x}_{0}, 1-\bar{\alpha}_tI)$ ，这里有 $x_t$ 说明是条件概率，有说明这个正态分布是和 $x_t$ 有关的，没有就说明这是一个没有啥关系的正态分布。此外等式的后面是标准差，所以表示成 $\mathcal{N}$ 后要平方成方差。
通过这个就可以求解 $q(\mathbf{x}_{t-1} | \mathbf{x}_{t},\mathbf{x}_{0})$ ，怎么推导没必要学。。。我们求解的这个是上一时刻的图像，注意这是图像，它肯定是一个正态分布，有自己的均值和方差，这都是可以计算出来的。
别人求出来的结果是这样的：
均值： $\tilde{\mu}_t = \frac{1}{\sqrt{\alpha_t}}(\mathbf{x}_t -\frac{1 - \alpha_t}{\sqrt{1-\bar{\alpha}_t}}z_t)$ ，方差： $\tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1 - \bar{\alpha}_{t}} \cdot \beta_t$
根据前面正向过程的内容， $\bar{\alpha}_{t}$ 等是实验设定的常数，所以方差是常数，可以计算。而均值呢， $z_t$ 是未知的，注意它不一定是正向过程里添加的标准正态分布的噪声。我们在训练时候自己知道是正向时候的噪声，但是在真实复原时候，我们是不知道这个噪声的，所以我们要去拟合出来。
这个时候，这个问题就变成了：我们为了求这时候的图像，就要求出均值，进一步要求噪声。
所以我们要去学习出这个噪声是什么，网络的训练目标就是让预测的噪声和真实噪声相似。学习到这个噪声是什么了，那么就能求出均值，求出图像了。
我们设预测的噪声为 $\epsilon_\theta(\mathbf{x}_{t}, t)$ ，就是上面的z，其中 $\theta$ 是一个可学习参数， $\epsilon_\theta$ 是一个神经网络，让它和生成 $x_t$ 的噪声 $\epsilon_t$ 的均方误差最小就行了，最终的损失函数就是： $L=||\epsilon_t - \epsilon_\theta(\mathbf{x}_{t}, t)||^2$ 。
得到了预测噪声，那么 $x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1-\alpha_t}{\sqrt{1-\alpha_t}} \varepsilon_{\theta}(x_t, t) \right) + \sigma_t z$ ，z是标准正态分布。