Diffusion 公式推导

ScienceLi1125

已于 2024-11-12 20:10:26 修改

阅读量2k

点赞数 18

分类专栏： 3D视觉文章标签： diffusion 扩散模型生成模型

于 2023-12-07 21:27:25 首次发布

本文链接：https://blog.csdn.net/m0_51976564/article/details/134816077

版权

3D视觉专栏收录该内容

42 篇文章

订阅专栏

Diffusion：通过扩散和逆扩散过程生成图像的生成式模型中已经对 diffusion 的原理进行了直观地梳理，本文对其中的数学推导进行讲解，还是先基于 DDPM。

一. 预备知识

1. 重参数技巧

重参数技巧 (Reparametrization Trick) 是一种在深度学习中用于训练概率模型的技术，通常用于变分推断和概率生成模型，如变分自动编码器 (Variational Autoencoders, VAE)。这些模型的部分参数是使用特定概率分布随机采样得到的而不是确定性的值，在梯度下降反向优化时难以计算。

因此引入了重参数技巧，通过重新引入可微变换来参数化随机变量，将采样操作转换为模型参数和一个固定的噪声项的函数，使得梯度计算变得可行。举个例子 ¹，如果要从高斯分布 $\sim \mathcal{N}\left(z ; \mu_\theta, \sigma_\theta^2 \mathbf{I}\right)$ 中采样一个 $z$ ，可以写成：
$z=\mu_\theta+\sigma_\theta \odot \epsilon, \epsilon \sim \mathcal{N}(0, \mathbf{I})$

其中， $\mu_\theta$ 表示分布的均值， $\sigma_\theta$ 表示分布的标准差， $\odot$ 表示对矩阵的逐元素相乘， $\epsilon$ 是从标准高斯分布中采样的噪声项。这样，我们可以对 $\mu_\theta$ 和 $\sigma_\theta$ 进行梯度计算，而不需要对采样操作进行梯度计算。

重参数技巧的使用可以使得概率模型的训练更加高效和稳定。

2. 高斯分布的可加性

两个互相独立的高斯分布之和仍为高斯分布，即：
$X_1 \sim N(\mu_1, \sigma_1^2)\\X_2 \sim N(\mu_2, \sigma_2^2)$

则：
$X_1+X_2 \sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\\X_1-X_2 \sim N(\mu_1-\mu_2, \sigma_1^2+\sigma_2^2)$

两个高斯分布的和本质上就是二维连续型随机变量函数的分布，可以通过计算其概率密度函数证明，见证明两个互相独立的高斯分布之和仍为高斯分布。

3. 扩散递推式的由来

不知道有多少读者和我一样，阅读 DDPM 时对扩散的递推式 $q(x_t \mid x_{t-1})=\mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \bold I)$ 感到疑惑，文中也没有解释这是怎么来的，网上的很多公式讲解也都是直接引用了该式进行推导。本节参考一文解释 Diffusion Model (一) DDPM 理论推导，对扩散过程的递推式的由来进行梳理。²

基于 diffusion 的原理，扩散过程是一个不断加噪的过程，因此相邻图像应该满足线性关系，且图像信息应当被不断减弱，形如：
$\boldsymbol{x}_t=a_t \boldsymbol{x}_{t-1}+b_t \boldsymbol{\varepsilon}_t, \quad \boldsymbol{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \\$

因为 $\boldsymbol{x}_t$ 中包含的图像信息相较 $\boldsymbol{x}_{t-1}$ 更少，因此衰减系数 $0<a_t<1$ 。同样，噪声系数 $0<b_t<1$ 。

将 $\boldsymbol{x}_{t-1}$ 代入 $\boldsymbol{x}_t$ 可以得到：
$\begin{aligned} \boldsymbol{x}_t & =a_t \boldsymbol{x}_{t-1}+b_t \boldsymbol{\varepsilon}_t \\ & =a_t\left(a_{t-1} \boldsymbol{x}_{t-2}+b_{t-1} \varepsilon_{t-1}\right)+b_t \varepsilon_t \\ & =a_t a_{t-1} \boldsymbol{x}_{t-2}+a_t b_{t-1} \boldsymbol{\varepsilon}_{t-1}+b_t \boldsymbol{\varepsilon}_t \\ & =\ldots \\ & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\left(a_t \ldots a_2\right) b_1 \varepsilon_1+\left(a_t \ldots a_3\right) b_2 \varepsilon_2+\cdots+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t \\ \end{aligned}$

$\boldsymbol{x}_t$ 的第一项关于原始图像 $\boldsymbol{x}_0$ ，其余余项可以利用高斯分布的可加性进行整合，满足高斯分布 $\mathcal{N}(\mathbf{0}, (\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2)\mathbf{I})$ 。于是可以将 $\boldsymbol{x}_t$ 写成：
$\begin{aligned} \boldsymbol{x}_t & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\left(a_t \ldots a_2\right) b_1 \varepsilon_1+\left(a_t \ldots a_3\right) b_2 \varepsilon_2+\cdots+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t \\ & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\sqrt{\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2} \overline{\boldsymbol{\varepsilon}}_t, \\ \end{aligned}$

其中 $\overline{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ ，服从标准高斯分布。

接下来再看 $\overline{\varepsilon}_t$ 前面的系数，为了一般性表示，在前面添加 $\left(a_t \ldots a_1\right)^2$ 项，最后再减去即可：
$\begin{aligned} & \left(a_t \ldots a_1\right)^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_2\right)^2 a_1^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_2\right)^2\left(a_1^2+b_1^2\right)+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_3\right)^2\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& a_t^2\left(a_{t-1}^2\left(\ldots\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\ldots\right)+b_{t-1}^2\right)+b_t^2 - \left(a_t \ldots a_1\right)^2\\ \end{aligned}$

为了表示的简洁以及便于书写，加一个限制条件： $a_i^2+b_i^2=1$ ，就可以将 $\boldsymbol{x}_t$ 大大简化：
$\begin{aligned} \boldsymbol{x}_t & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\sqrt{\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2} \overline{\boldsymbol{\varepsilon}}_t, \\ & = \left(a_t \ldots a_1\right) \boldsymbol{x}_0 + \sqrt{1-\left(a_t \ldots a_1\right)^2} \overline{\boldsymbol{\varepsilon}}_t \end{aligned}$

记 $\overline{\alpha}_t = \left(a_t \ldots a_1\right)^2$ ，则有：
$\boldsymbol{x}_t=\sqrt{\overline{\alpha}_t} \boldsymbol{x}_0+\sqrt{1-\overline{\alpha}_t} \overline{\varepsilon}_t, \quad \overline{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$

上式和（7）式相同。

二. 扩散过程

1. 背景声明

记原始图像为 $x_0$ ，扩散过程累计 $T$ 次对其添加高斯噪声，得到 $x_1, x_2, \dots, x_T$ ；
记 $x_t \sim q(x_t)$ ，表示其服从的概率分布而不是一个具体的特定值；
根据 diffusion 模型的原理， $x_T \sim \mathcal{N}(0, \bold I)$ ，其中 $\bold I$ 为单位矩阵；
扩散过程添加的噪声都满足均值为 0 的高斯分布，方差是超参数，用来调整扩散效果。引入方差系数为 $0<\beta_1<\beta_2<\dots<\beta_T<1$ （因为扩散速度越来越快，所以 $\beta_t$ 不断变大）。文中定义扩散过程如下：
$q(x_t \mid x_{t-1})=\mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \bold I) \tag{1}$
因为扩散过程是马尔科夫过程，因此有：
$q(x_{1:T} \mid x_{0})=\prod_{t=1}^T q(x_t \mid x_{t-1}) \tag{2}$

直观来讲， $x_t$ 在 $x_{t-1}$ 的基础上乘上系数 $\sqrt{1-\beta_t}$ ，相当于一个变淡的过程；再加上扰动 $\beta_t \epsilon_{t-1}$ ，就能够让图像向标准高斯分布靠近。
为了表示方便，记 $\alpha_t = 1- \beta_t$ ， $\overline{\alpha}_t = \prod_{i=1}^t \alpha_i$ ；

2. 公式推导

将（1）式使用重参化技巧表示：
$x_t = \sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1} \quad \text{ 其中 }\epsilon_{t-1} \sim \mathcal{N}(0, \bold I) \tag{3}$

将 $x_{t-1}$ 代入 $x_{t}$ 得到：
$\because \quad x_t = \sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1}\\ \quad\quad x_{t-1} = \sqrt{1-\beta_{t-1}}x_{t-2} + \sqrt{\beta_{t-1}} \epsilon_{t-2}\\ \begin{aligned} \therefore \quad x_t & = \sqrt{1-\beta_t}(\sqrt{1-\beta_{t-1}}x_{t-2} + \sqrt{\beta_{t-1}} \epsilon_{t-2}) + \sqrt{\beta_t} \epsilon_{t-1}\\ & = \sqrt{(1-\beta_t)(1-\beta_{t-1})} x_{t-2} + \sqrt{(1-\beta_t)\beta_{t-1}} \epsilon_{t-2} + \sqrt{\beta_t} \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} \tag{4} \end{aligned}$

如果 $\epsilon_{t}$ 是特定值，后面的余项就不能继续处理。但 $\epsilon_{t}$ 是重参化过程中引入的标准高斯分布中采样，结合高斯分布的可加性，有：
$\because \quad \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} \sim \mathcal{N}(0, \alpha_t(1-\alpha_{t-1})\bold I)\\ \sqrt{1-\alpha_{t}} \epsilon_{t-1} \sim \mathcal{N}(0, (1-\alpha_{t}) \bold I)\\ \therefore \quad \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} \sim \mathcal{N}(0, (1-\alpha_t\alpha_{t-1})\bold I)$

因此可以将余项合并，改写成：
$\sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} = \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2} \tag{5}$

其中 $\overline \epsilon_{t-2} \sim \mathcal{N}(0, \bold I)$ ，作为余项的统一表示。代入（4）式，得到：
$\begin{aligned} x_t & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2} \end{aligned} \tag{6}$

同理继续向下推导，可以得到 $x_t$ 的通项：
$\begin{aligned} x_t & = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \overline \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2}\\ & = \cdots \\ & = \sqrt{\alpha_t\alpha_{t-1}\cdots\alpha_1} x_{0} + \sqrt{1-\alpha_t\alpha_{t-1}\cdots\alpha_1} \overline \epsilon_{0}\\ & = \sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}\\ \end{aligned} \tag{7}$

此处 $x_t = \sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}$ 也有地方写作 $x_t = \sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \overline \epsilon_{t}$ ，如果写成后者则（20）式应该表示为：
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} ; \frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{t}\right), \left(\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t\right) \mathbf{I}\right)$

由此可以看出，扩散过程通过马尔科夫性质可以一步到位，这也是 diffusion 正向扩散的核心。

三. 逆扩散过程

Diffusion：通过扩散和逆扩散过程生成图像的生成式模型中已经说了：逆扩散 $(x_{t-1} \mid x_t)$ 是未知的，需要用 U-Net 学习 $p_\theta (x_{t-1} \mid x_t)$ 来近似；学习过程中使用 $(x_{t-1} \mid x_0x_t)$ 来指导 $p_\theta (x_{t-1} \mid x_t)$ 进行训练。

1. 背景声明

$(x_{t-1} \mid x_t)$ 是不可知的，但 $(x_{t-1} \mid x_0, x_t)$ 是可知的。前者一般出现在推理阶段，后者出现在训练阶段。 记：
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} ; \tilde{\mu}\left(x_t, x_0\right), \tilde{\beta}_t \mathbf{I}\right) \tag{8}$
使用 $(x_{t-1} \mid x_0x_t)$ 来指导 $p_\theta (x_{t-1} \mid x_t)$ 进行训练；
根据马尔科夫性质，有：
$p_\theta\left(x_{0: T}\right)=p\left(x_T\right) \prod_{t=1}^T p_\theta\left(x_{t-1} \mid x_t\right) \tag{9}$
使用 U-Net 表示 $p_\theta (x_{t-1} \mid x_t)$ ：
$p_\theta\left(x_{t-1} \mid x_t\right)=\mathcal{N}\left(x_{t-1} ; \mu_\theta\left(x_t, t\right), \Sigma_\theta\left(x_t, t\right)\right) \tag{10}$

2. 公式推导

都说 $(x_{t-1} \mid x_t, x_0)$ 是可知的，下面推导其表达式。根据贝叶斯公式，有：
$q\left(x_{t-1} \mid x_t, x_0\right)=q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} \tag{11}$

其中 $q\left(x_{t-1} \mid x_t, x_0\right)$ 为后验概率， $q\left(x_t \mid x_{t-1}, x_0\right)$ 为似然估计， $q\left(x_{t-1} \mid x_0\right)$ 为先验概率， $q\left(x_t \mid x_0\right)$ 为证据（evidence）。这一步贝叶斯公式巧妙地将逆向过程全部变回了前向。 注意，这里的表示和普通的贝叶斯公式有所不同（多了 $x_0$ 项）是因为先验概率和证据无法直接求解，需要结合 $x_0$ 求解得到。

根据扩散过程推出的 $x_t$ 的通项，即（7）式，有：
$\begin{aligned} q\left(x_{t-1} \mid x_0\right)&=\sqrt{\overline{\alpha}_{t-1}} x_0+\sqrt{1-\overline{\alpha}_{t-1}} \epsilon \sim \mathcal{N}\left(\sqrt{\overline{\alpha}_{t-1}} x_0, 1-\overline{\alpha}_{t-1}\right) \\ q\left(x_t \mid x_0\right)&=\sqrt{\overline{\alpha}_t} x_0+\sqrt{1-\overline{\alpha}_t} \epsilon \sim \mathcal{N}\left(\sqrt{\overline{\alpha}_t} x_0, 1-\overline{\alpha}_t\right) \\ \end{aligned} \tag{12}$

根据（3）式，有：
$q\left(x_t \mid x_{t-1}, x_0\right)=q\left(x_t \mid x_{t-1}\right)=\sqrt{\alpha_t} x_{t-1}+\sqrt{1-\alpha_t} \epsilon \sim \mathcal{N}\left(\sqrt{\alpha_t} x_{t-1}, 1-\alpha_t\right) \tag{13}$

根据高斯分布定义式，有：
$\mathcal{N}\left(\mu, \sigma^2\right) \propto \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right) \tag{14}$

将（12）~（14）式代入（11），有：
$\begin{aligned} q\left(x_{t-1} \mid x_t, x_0\right)& =q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} \\ & \propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}} x_0\right)^2}{1-\overline{a}_{t-1}}-\frac{\left(x_t-\sqrt{\overline{\alpha}_t} x_0\right)^2}{1-\overline{a}_t}\right)\right) \\ \end{aligned} \tag{15}$

因为 $q\left(x_{t-1} \mid x_t, x_0\right)$ 是关于 $x_{t-1}$ 的表达式，因此将（15）式中平方项展开，再按 $x_{t-1}$ 合并同类项，可得：
$\begin{aligned} & \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}} x_0\right)^2}{1-\overline{a}_{t-1}}-\frac{\left(x_t-\sqrt{\overline{\alpha}_t} x_0\right)^2}{1-\overline{a}_t}\right)\right) \\ = & \exp \left(-\frac{1}{2}\left(\underbrace{\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}\right) x_{t-1}^2}_{x_{t-1} \text { 方差 }} - \underbrace{\left(\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\overline{a}_{t-1}}}{1-\overline{\alpha}_{t-1}} x_0 \right) x_{t-1}}_{x_{t-1} \text { 均值 }}+\underbrace{C\left(x_t, x_0\right)}_{\text {与 } x_{t-1} \text { 无关 }}\right)\right) \\ \end{aligned} \tag{16}$

其中 $C\left(x_t, x_0\right)$ 是与 $x_{t-1}$ 无关的表达式，可以提到 $\exp$ 外作为常数项，因此没有展开。

将（16）式与高斯分布定义式指数展开做对比：
$\exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)=\exp \left(-\frac{1}{2}\left(\frac{1}{\sigma^2} x^2-\frac{2 \mu}{\sigma^2} x+\frac{\mu^2}{\sigma^2}\right)\right)$

提取 $x_{t-1}$ 的平方项和一次项可得（8）式中方差 $\tilde{\beta}_t$ ：
$\because \frac{1}{\tilde{\beta}_t}=\frac{1}{\sigma^2}=\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}\right)\\ \therefore \tilde{\beta}_t=\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t \tag{17}$

同理可得均值 $\tilde{\mu}_t\left(x_t, x_0\right)$ ：
$\because \frac{2 \tilde{\mu}_t\left(x_t, x_0\right)}{\tilde{\beta}_t}=\frac{2 \mu}{\sigma^2}=\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\overline{a}_{t-1}}}{1-\overline{\alpha}_{t-1}} x_0 \\ \therefore \tilde{\mu}_t\left(x_t, x_0\right)=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} x_0 \tag{18}$

经过上面的分析， $x_{t-1}$ 可以通过 $x_0$ 和 $x_t$ 得到。然而，diffusion 逆向传播时并不知道 $x_0$ 的情况，因此需要对其进行替换。将（7）式代入，将 $x_0$ 替换成 $x_t$ 表示，于是有：
$\begin{aligned} \tilde{\mu}_t\left(x_t, x_0\right)&=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} x_0\\ &=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} \frac{x_t-\sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}}{\sqrt{\overline{\alpha}_t}}\\ &=\frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right)\\ \end{aligned}$

上式中已经消去了 $x_0$ ，只和 $t$ 有关，记为 $\tilde{\mu}_t$ ，即：
$\tilde{\mu}_t=\frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right) \tag{19}$

综上， $(x_{t-1} \mid x_t, x_0)$ 可以表示为高斯分布采样：
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} ; \frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right), \left(\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t\right) \mathbf{I}\right) \tag{20}$

即：
$x_{t-1} = \frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right) + \sqrt{\left(\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t\right)} \epsilon \quad \text{ 其中 }\epsilon \sim \mathcal{N}(0, \bold I) \tag{21}$

至此， $(x_{t-1} \mid x_t, x_0)$ 的高斯分布的均值和方差就都有了，只剩下式中的 $\overline \epsilon_{0}$ ，交给 U-Net 使用深度学习方法进行预测。³

四. 训练过程

前两节分别介绍了 diffusion 正向和逆向扩散过程中的数学公式推导，留下了 $\overline \epsilon_{0}$ 需要 U-Net 进行预测。因为训练时正向扩散过程中添加的噪声在采样后是已知的，因此只需要训练 U-Net 的预测结果向所添加的噪声靠近即可。记训练过程中的噪声采样为 $\epsilon$ ，U-Net 的预测噪声为 $\epsilon_{\theta}(\sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \epsilon, t)$ ，于是有训练过程：
在这里插入图片描述

目标函数为：
$L_{D M}=\mathbb{E}_{x, \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_\theta\left(x_t, t\right)\right\|_2^2\right]$

需要注意的是，这里输入 U-Net 的是 $x_t$ 而非将 $\sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \overline \epsilon$ 每一项分别输入，所以不存在真值泄露问题。

五. 推理过程

推理过程就是从 $x_{T}$ 到 $x_{0}$ 的逆扩散：
在这里插入图片描述
其中 $\sigma_t$ 即为（20）式中的 $\sqrt{\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t}$ 。

Q & A：

Q1：笔者第一次推导 DDPM 时，对（11）式使用贝叶斯公式推导逆扩散公式非常不解，为什么不能直接将（3）式进行代换：
$x_{t-1} = \frac{x_t - \sqrt{\beta_t} \epsilon_{t-1}}{\sqrt{1-\beta_t}}$

然后训练 U-Net 预测 $\epsilon_{t-1}$ ？

A1：从过程上分析， $\epsilon_{t-1}$ 是个符合正态分布的随机变量，但是其采样结果完全未知，甚至在 DDPM 正向过程中完全没有出现过（因为 DDPM 使用（7）式一步到位得到了 $x_T$ ），如果想 训练 U-Net 预测该随机变量明显缺少监督信息。况且，如果直接将（3）式进行代换得到逆扩散公式，那么整个 DDPM 就退化成了 VAE 的结构。但 VAE 的生成模型和后验都是通过学习得到的，生成模型和后验双向奔赴共同优化以寻找最优解，而 DDPM 的后验是人为指定的一个标准正态分布，几乎磨灭掉了所有的输入信息，全靠生成模型这一边去恢复，难度过大。

Q2：DDPM 的训练过程使用 $x_0 \rightarrow x_t$ 的真实加噪噪声监督 U-Net 训练，那么 U-Net 的预测噪声 $\epsilon_\theta\left(x_t, t\right)$ 应该是 $x_0 \rightarrow x_t$ 的噪声才对。为什么推理时用 U-Net 的预测噪声 $\epsilon_\theta\left(x_t, t\right)$ 作为 $x_{t-1} \rightarrow x_t$ 的近似噪声？
A2：这里有一个误区， $x_0 \rightarrow x_t$ 的实际加噪过程 $x_t = \sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \epsilon$ 采样的 $\epsilon \sim \mathcal{N}(0, \bold I)$ 并不是 $x_0 \rightarrow x_t$ 的真实噪声，而仅仅是 重参化后的一个服从高斯分布的纯净噪声（参见 (1)~(7) 式的推导过程）。因此 U-Net 只起预测当前步到前一步的纯净噪声的作用，所以推理时带入的也是 $x_t \rightarrow x_{t-1}$ 的公式（即 (3) 式），而非 $x_t \rightarrow x_0$ 的公式（即 (7) 式）。

Q3：为什么 DDPM 的训练过程设计成这种 $x_0 \rightarrow x_t$ 一步加噪再预测纯噪声的模式？单步加噪 $x_0 \rightarrow x_1 \rightarrow ... \rightarrow x_t$ 分别记录每一步噪声再用真实噪声监督 U-Net 训练不是更符合直觉吗？
A3：DDPM 最初尝试过这种方式，但是效果较差，所以改成了现在这种训练模式。