【论文解读】Denoising Diffusion Probabilistic Models（DDPM）——Diffusion模型奠基之作（内含大量推导）【一】-CSDN博客

文章目录

概览
一、背景
参考链接

由于内容较多，分篇进行解读，此为第一篇。
第二篇：【论文解读】Denoising Diffusion Probabilistic Models（DDPM）——Diffusion模型奠基之作（内含大量推导）【二】-CSDN博客
第三篇：【论文解读】Denoising Diffusion Probabilistic Models（DDPM）——Diffusion模型奠基之作（内含大量推导）【三】-CSDN博客
第四篇：【论文解读】Denoising Diffusion Probabilistic Models（DDPM）——Diffusion模型奠基之作（内含大量推导）【四】-CSDN博客
第五篇：【论文解读】Denoising Diffusion Probabilistic Models（DDPM）——Diffusion模型奠基之作（内含大量推导）【五】-CSDN博客

概览

扩散概率模型(diffusion probabilistic models)，简称扩散模型(diffusion model)，是一个马尔可夫链，包括前向过程和反向过程，前向过程是有具体的表达式可以计算的，后向过程是利用神经网络来学习的。前向过程，即扩散过程，就是不断地对图像添加高斯噪声，直到图像完全被高斯噪声淹没，如下图中的 $q(\mathbf{x}_t|\mathbf{x}_{t−1})$ 。而反向过程，即去噪过程，就是逐渐去除噪声生成图片的过程，如下图中的 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 。

这里结合两篇论文来看，分别是：

Deep Unsupervised Learning using Nonequilibrium Thermodynamics：这篇论文受非平衡统计物理学启发，首先提出了扩散概率模型。
Denoising Diffusion Probabilistic Models：这篇文章是将 diffusion model 用于图像生成领域的关键论文。

一、背景

首先给出概念：扩散模型是一种潜变量模型（latent variable model），即这类模型假设我们观察到的数据（ $\mathbf{x}_0$ ）是由一些未观察到的、隐藏的变量（即潜变量 $\mathbf{x}_1, \dots, \mathbf{x}_T$ ）生成的。

下面介绍扩散模型相关背景，本部结合论文1、2一起来看。

（一）前向过程

假设 $\mathbf{x}_0$ 是原始的、未经处理的数据（例如，一张清晰的图片），下标 0 代表时间步 $t = 0$ 。 $q(\mathbf{x}_0)$ 是初始数据的分布。通过重复应用一个马尔可夫扩散核 $T_\pi(\mathbf{y}|\mathbf{y}'; \beta)$ ，原始数据分布被逐渐转化为一个性质良好（解析上易于处理）的分布 $\pi(\mathbf{y})$ ，其中 $\beta$ 是扩散速率。

这个 $\pi(\mathbf{y})$ 就是前向过程的目标分布。通常，这个目标分布是一个非常简单的、我们熟知的分布，比如标准正态分布（高斯噪声）。“性质良好”或“解析上易于处理”意味着我们可以很容易地从这个分布中采样，或者计算它的概率密度。
$T_\pi(\mathbf{y}|\mathbf{y}'; \beta)$ 指的是一个转移概率函数，它定义了从一个状态 $\mathbf{y}'$ 转换到另一个状态 $\mathbf{y}$ 的概率。这个转换过程具有马尔可夫性质，即下一个状态 $\mathbf{y}$ 只依赖于当前状态 $\mathbf{y}'$ ，而与更早之前的状态无关。 $T_\pi(\mathbf{y}|\mathbf{y}'; \beta)$ 这个核函数描述了单步扩散，即给定当前状态 $\mathbf{y}'$ ，它会以一定的概率（由 $\beta$ 控制）将其“扩散”成 $\mathbf{y}$ 。下标 $\pi$ 表示这个核是设计用来最终趋向于 $\pi(\mathbf{y})$ 分布的。

可以写出如下公式：
$\begin{align} &\pi(\mathbf{y}) = \int T_\pi(\mathbf{y}|\mathbf{y}'; \beta) \pi(\mathbf{y}') d\mathbf{y}' \\ &q(\mathbf{x}_{t}|\mathbf{x}_{t-1}) = T_\pi(\mathbf{x}_{t}|\mathbf{x}_{t-1}; \beta_t) \end{align}$
因此，从初始数据开始，执行 $T$ 次扩散的前向过程由下式给出：
$\begin{equation} \begin{aligned} q(\mathbf{x}_{0:T}) &= q(\mathbf{x}_{0}) q(\mathbf{x}_{1}|\mathbf{x}_{0}) q(\mathbf{x}_{2}|\mathbf{x}_{0}\mathbf{x}_{1}) \dots q(\mathbf{x}_{T}|\mathbf{x}_{0:T-1}) &(\text{概率乘法公式}) \\ & = q(\mathbf{x}_{0}) q(\mathbf{x}_{1}|\mathbf{x}_{0}) q(\mathbf{x}_{2}|\mathbf{x}_{1}) \dots q(\mathbf{x}_{T}|\mathbf{x}_{T-1}) &(\text{马尔科夫性质}) \\ &= q(\mathbf{x}_{0}) \prod_{t=1}^T q(\mathbf{x}_{t}|\mathbf{x}_{t-1}) \end{aligned} \end{equation}$
其中， $q(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ （即单步前向转移概率）要么对应于向具有单位协方差的高斯分布进行高斯扩散，要么对应于向一个独立的二项分布进行二项扩散。前者适用于连续数据，后者适用于离散数据。

多元高斯分布的一般形式：

设随机向量 $\mathbf{X} = [X_1, X_2, \dots, X_n]^T$ 服从 $n$ 维高斯分布，记为 $\mathbf{X} \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ ，其中：

$\boldsymbol{\mu}$ 是均值向量（各变量的期望值）；
$\boldsymbol{\Sigma}$ 是 $\times n$ 的协方差矩阵，对角线元素 $\Sigma_{ii} = \text{Var}(X_i)$ 为各变量的方差，非对角线元素 $\Sigma_{ij} = \text{Cov}(X_i, X_j)$ 为变量间的协方差。

单位协方差的含义：若协方差矩阵 $\boldsymbol{\Sigma} = \mathbf{I}$ （单位矩阵），则每个变量的方差为 1 ( $\text{Var}(X_i) = 1$ )，且任意两个变量之间的协方差为 0 ( $\text{Cov}(X_i, X_j) = 0$ , $\neq j$ )。此时变量间相互独立且标准化，分布称为标准多元高斯分布。

根据条件概率分布：
$\begin{equation} q(\mathbf{x}_{0:T}) = q(\mathbf{x}_{0})q(\mathbf{x}_{1:T}|\mathbf{x}_{0}) \end{equation}$
扩散模型与其他潜变量模型的区别在于，其后验概率 $q(\mathbf{x}_{1:T}|\mathbf{x}_{0})$ ，即前向过程或扩散过程，被固定为一个马尔科夫链，根据方差调度 $\beta_1, \dots \beta_T$ ，逐次向数据中添加高斯噪声。根据前面的公式，可知：
$\begin{equation} \boxed{ q(\mathbf{x}_{1:T}|\mathbf{x}_{0}) = \prod_{t=1}^T q(\mathbf{x}_{t}|\mathbf{x}_{t-1}) } \end{equation}$
其单步转移概率是人为设计的，论文2中定义为：
$\begin{equation} \boxed{ q(\mathbf{x}_t|\mathbf{x}_{t-1}) := \mathcal{N}(\mathbf{x}_t; \sqrt{1-\beta_t}\mathbf{x}_{t-1}, \beta_t\mathbf{I}) } \end{equation}$
它是关于 $\mathbf{x}_t$ 的高斯分布，其均值为 $\sqrt{1-\beta_t}\mathbf{x}_{t-1}$ ，方差为 $\beta_t\mathbf{I}$ 。

（二）反向过程

反向过程需要训练一个生成分布 (The generative distribution)，即模型学习到的用于生成数据的概率分布，通常用 $p_\theta$ （其中 $\theta$ 代表模型参数）来表示。其目标是学习一个从纯噪声 $\mathbf{x}_{T}$ 出发，逐步去噪，最终生成数据 $\mathbf{x}_{0}$ 的过程，它同样是一个马尔科夫链：
$\begin{equation} p(\mathbf{x}_{T})= \pi(\mathbf{x}_{T}) \end{equation}$
$\begin{equation} \boxed{ p_\theta(\mathbf{x}_{0:T}) = p(\mathbf{x}_{T}) \prod_{t=1}^T p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t}) } \end{equation}$

$p(\mathbf{x}_{T})$ 表示反向生成模型在时刻 $T$ 的分布（注意这里 $p(\mathbf{x}_{T})$ 没有下标 $\theta$ ，因为它通常是 $\pi(\mathbf{x}_{T})$ ）。 $\pi(\mathbf{x}_{T})$ 是前向过程在 $T$ 步后达到的目标（通常是简单的、已知的）噪声分布，比如标准正态分布 $\mathcal{N}(\mathbf{0}, \mathbf{I})$ 。反向生成过程从前向过程最终到达的那个已知的噪声分布开始，这是连接前向过程和反向过程的桥梁。因此， $p(\mathbf{x}_T) = \mathcal{N}(\mathbf{x}_T; \mathbf{0}, \mathbf{I})$ 。 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 是反向过程的核心，表示给定时刻 $t$ 的状态 $\mathbf{x}_{t}$ ，生成（或去噪得到）时刻 $t - 1$ 的状态 $\mathbf{x}_{t-1}$ 的条件概率，这些是模型需要学习的部分。

根据 Feller 等人的研究，对于高斯扩散和二项扩散，在连续扩散（即步长 $\beta$ 很小的极限情况）下，扩散过程的逆过程与前向过程具有相同的函数形式。因此，由于 $q(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 是一个高斯（或二项）分布，并且如果 $\beta_t$ 很小，那么 $q(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 也将是一个高斯（或二项）分布（注意，这里只是相同的分布，但并分布的参数也相同）。轨迹越长，扩散率 $\beta$ 就可以设置得越小。这为我们选择反向过程中 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 的函数形式提供了理论基础。

在学习过程中，对于高斯扩散核，只需要估计其均值和协方差；对于二项核，只需要估计其比特翻转概率。因此，如果反向转移 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 被建模为高斯分布，那么模型需要学习预测这个高斯分布的均值和协方差。 $f_\mu(\mathbf{x}_{t}, t)$ 和 $f_\Sigma(\mathbf{x}_{t}, t)$ 是为高斯情况定义反向马尔可夫转移的均值和协方差的函数，而 $f_b(\mathbf{x}_{t}, t)$ 是为二项分布提供比特翻转概率的函数。这里引入了具体的函数 $f_\mu, f_\Sigma, f_b$ 来参数化反向过程的转移概率，通常是神经网络。它们都以当前状态 $\mathbf{x}_{t}$ 和当前时间步 $t$ 作为输入。 $f_\mu(\mathbf{x}_{t}, t)$ : 预测高斯转移的均值 $\mu(\mathbf{x}_{t}, t)$ 。 $f_\Sigma(\mathbf{x}_{t}, t)$ : 预测高斯转移的协方差 $\Sigma(\mathbf{x}_{t}, t)$ 。 $f_b(\mathbf{x}_{t}, t)$ : 预测二项分布的比特翻转概率。因此，运行此算法的计算成本是这些函数的成本乘以时间步数。在论文1的所有结果中，都使用多层感知机（MLP）来定义这些函数。

在论文2中，给出反向过程的单步转移概率分布为：
$\begin{equation} \boxed{ p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_t) := \mathcal{N}(\mathbf{x}_{t-1}; \mu_{\theta}(\mathbf{x}_t, t), \Sigma_{\theta}(\mathbf{x}_t, t)) } \end{equation}$
即转移概率分布函数为关于 $\mathbf{x}_{t-1}$ 的高斯分布，其均值 $\mu_{\theta}(\mathbf{x}_t, t)$ 和协方差 $\Sigma_{\theta}(\mathbf{x}_t, t))$ 是关于 $\mathbf{x}_t, t$ 的函数，它们是由模型学习得到的。

（三）模型概率

生成模型赋予观测数据 $\mathbf{x}_0$ 的预测概率为（要计算边缘概率密度，就是对联合概率密度的其他所有随机变量求积分）：
$\begin{equation} p_\theta(\mathbf{x}_{0}) = \int p_\theta(\mathbf{x}_{0:T}) d\mathbf{x}_{1:T} \end{equation}$
其中， $p_\theta(\mathbf{x}_{0:T})$ 表示整个反向（生成）轨迹 $(\mathbf{x}_{0}, \mathbf{x}_{1}, \dots, \mathbf{x}_{T})$ 的联合概率。它描述了从噪声 $\mathbf{x}_{T}$ 一路生成到数据 $\mathbf{x}_{0}$ 的完整路径的概率。 $\int d\mathbf{x}_{1:T}$ 表示对所有可能的中间潜变量（即轨迹 $\mathbf{x}_{1}, \dots, \mathbf{x}_{T}$ ）进行积分。即，要得到模型赋予特定数据 $\mathbf{x}_{0}$ 的概率，我们需要考虑所有可能生成该 $\mathbf{x}_{0}$ 的潜变量路径 $(\mathbf{x}_{1}, \dots, \mathbf{x}_{T})$ ，并将这些路径的联合概率 $p_\theta(\mathbf{x}_{0:T})$ 积分起来。

直接计算这个积分通常是不可行的，但是借鉴退火重要性采样（annealed importance sampling）和 Jarzynski 等式的思想，可以转而评估前向和反向轨迹的相对概率，并在前向轨迹上取平均：
$\begin{align} p_\theta(\mathbf{x}_{0}) &= \int p_\theta(\mathbf{x}_{0:T}) \frac{q(\mathbf{x}_{1:T}|\mathbf{x}_{0})}{q(\mathbf{x}_{1:T}|\mathbf{x}_{0})} d\mathbf{x}_{1:T} \\ &= \int q(\mathbf{x}_{1:T}|\mathbf{x}_{0}) \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T}|\mathbf{x}_{0})} d\mathbf{x}_{1:T} \\ &= \int q(\mathbf{x}_{1:T}|\mathbf{x}_{0}) \cdot p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})} d\mathbf{x}_{1:T} \end{align}$
这里的核心思想是重要性采样 (importance sampling)。我们不直接从难以采样的 $p_\theta(\mathbf{x}_{0:T})$ 中采样，而是从一个更容易采样的提议分布 (proposal distribution) 中采样，并用一个权重来修正。在这里，前向过程 $q$ 扮演了提议分布的角色。上式首先在被积函数中乘以并除以同一个量 $q(\mathbf{x}_{1:T}|\mathbf{x}_{0})$ 。这个量是给定真实数据 $\mathbf{x}_{0}$ 时，前向（加噪）过程产生特定潜变量轨迹 $(\mathbf{x}_{1}, \dots, \mathbf{x}_{T})$ 的概率。现在，在公式 $(12)$ 中，积分可以被看作是关于分布 $q(\mathbf{x}_{1:T}|\mathbf{x}_{0})$ 求期望。即：
$p_\theta(\mathbf{x}_{0}) = \mathbb{E}_{\mathbf{x}_{1:T} \sim q(\mathbf{x}_{1:T}|\mathbf{x}_{0})} \left[ \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T}|\mathbf{x}_{0})} \right] = \mathbb{E}_{\mathbf{x}_{1:T} \sim q(\mathbf{x}_{1:T}|\mathbf{x}_{0})} \left[ p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})} \right]$
其中 $\frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T}|\mathbf{x}_{0})}$ 即为重要性权重 (importance weight)。上式可以通过从前向过程 $q(\mathbf{x}_{1:T}|\mathbf{x}_{0})$ 中抽取的样本进行平均来快速评估。这是蒙特卡洛估计 (Monte Carlo estimation) 的标准做法。由于直接计算这个期望（即积分）是困难的，我们可以通过以下步骤来近似它：

从已知的、固定的前向过程 $q(\mathbf{x}_{1:T}|\mathbf{x}_{0})$ 中抽取多条轨迹，即潜变量序列 $(\mathbf{x}_{1}, \dots, \mathbf{x}_{T})$ 。给定一个 $\mathbf{x}_{0}$ ，这是可以做到的，因为前向过程是预先定义好的。
对于每一条抽取的轨迹，计算重要性权重项： $p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})}$ 。
将所有抽取样本计算得到的权重 $W$ 进行平均。这个平均值就是对 $p_\theta(\mathbf{x}_{0})$ 的一个估计。训练的过程就是通过优化神经网络，使这个估计更准确。

其中：

对于 $p(\mathbf{x}_{T})$ ：直接使用预设的简单分布（如标准高斯）来计算其在 $\mathbf{x}_{T}$ 点的概率密度。
对于 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ ：将当前状态 $\mathbf{x}_{t}$ 和时间步 $t$ 输入到已训练（或正在训练）的神经网络中，得到定义该条件概率分布的参数（如高斯分布的均值和方差），然后计算 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 的值。

（四）训练目标

训练的目标是最大化模型的对数似然。这是大多数生成模型的标准训练原则，即最大似然估计 (Maximum Likelihood Estimation, MLE)。我们希望调整模型的参数，使得模型赋予真实观测数据 $\mathbf{x}_0$ 的概率 $p_\theta(\mathbf{x}_{0})$ 尽可能大，也就是其对数 $\log p_\theta(\mathbf{x}_{0})$ 尽可能大。
$\begin{align} L' &= \int q(\mathbf{x}_{0}) \log p_\theta(\mathbf{x}_{0}) d\mathbf{x}_{0} \\ &= \int q(\mathbf{x}_{0}) \cdot \log \left[ \int q(\mathbf{x}_{1:T}|\mathbf{x}_{0}) \cdot p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})} d\mathbf{x}_{1:T} \right] d\mathbf{x}_{0} \end{align}$
$L^{'}$ 代表了希望最大化的目标函数，即在真实数据分布 $q(\mathbf{x}_{0})$ 下，模型对数似然 $\log p_\theta(\mathbf{x}_{0})$ 的期望值。它可以通过琴生不等式（Jensen’s inequality） 得到一个下界。琴生不等式：对于上凸函数 $f (x)$ ，比如 $\log (x)$ ，有 $\mathbb{E}[f(X)] \leq f(\mathbb{E}[X])$ 。在上述公式中， $\log$ 函数作用于一个期望（积分）之外。我们可以将 $\log$ 函数移到期望（积分）内部，从而得到一个下界： $\log \mathbb{E}_{\mathbf{x}_{1:T} \sim q(\mathbf{x}_{1:T}|\mathbf{x}_{0})}[W] \geq \mathbb{E}_{\mathbf{x}_{1:T} \sim q(\mathbf{x}_{1:T}|\mathbf{x}_{0})}[\log W]$ 其中 $p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})}$ 是重要性权重。因此得到：
$\begin{align} L' &\geq \int q(\mathbf{x}_{0}) \cdot \left[ \int q(\mathbf{x}_{1:T}|\mathbf{x}_{0}) \cdot \log \left( p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})} \right) d\mathbf{x}_{1:T} \right] d\mathbf{x}_{0} \\ & = \int \left[ \int q(\mathbf{x}_{0}) \cdot q(\mathbf{x}_{1:T}|\mathbf{x}_{0}) \cdot \log \left( p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})} \right) d\mathbf{x}_{1:T} \right] d\mathbf{x}_{0} \\ &= \int q(\mathbf{x}_{0:T}) \cdot \log \left[ p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})} \right] d\mathbf{x}_{0:T} \\ &= \mathbb{E}_{\mathbf{x}_{0:T} \sim q(\mathbf{x}_{0:T})}[\log W] \end{align}$
即下界是就是 $\mathbb{E}_{\mathbf{x}_{0:T} \sim q(\mathbf{x}_{0:T})}[\log W]$ ，以上推导是论文1中的形式。

论文2中则写成了负对数似然和期望的形式，优化目标是最小化 $L = - L^{'}$ 。由于直接优化对数似然通常很困难，所以我们转而优化它的一个界限——具体来说是证据下界 (Evidence Lower Bound, ELBO)。最大化ELBO等价于最小化负的ELBO。具体来说，首先将论文1中的 $L^{'}$ 添加负号，并写为期望的形式：
$\begin{equation} L = -L' = -\int q(\mathbf{x}_{0}) \log p_\theta(\mathbf{x}_{0}) d\mathbf{x}_{0} = \mathbb{E}_{\mathbf{x}_0 \sim q(\mathbf{x}_0)}[-\log p_{\theta}(\mathbf{x}_0)] \end{equation}$
上面我们已经证明过，在论文1需要最大化 $L^{'}$ 的情况下，有：
$\begin{equation} L' \geq \mathbb{E}_{\mathbf{x}_{0:T} \sim q(\mathbf{x}_{0:T})}[\log W] \end{equation}$
因此，有：
$\begin{equation} \begin{aligned} L = \mathbb{E}_{\mathbf{x}_0 \sim q(\mathbf{x}_0)}[-\log p_{\theta}(\mathbf{x}_0)] &\leq \mathbb{E}_{\mathbf{x}_{0:T} \sim q(\mathbf{x}_{0:T})}[-\log W] \\ &= \mathbb{E}_{\mathbf{x}_{0:T} \sim q(\mathbf{x}_{0:T})}\left[-\log \left(p(\mathbf{x}_{T}) \prod_{t=1}^T \frac{p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_{t})}{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})}\right)\right] \\ &= \mathbb{E}_{\mathbf{x}_{0:T} \sim q(\mathbf{x}_{0:T})} \left[-\log p(\mathbf{x}_T) - \sum_{t \geq 1} \log \frac{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_t)}{q(\mathbf{x}_t|\mathbf{x}_{t-1})}\right] \end{aligned} \end{equation}$
以上就是论文2中的公式 $(3)$ 。