【文生图系列】Denoising Diffusion Probabilistic Models论文解读

最新推荐文章于 2025-03-25 21:48:10 发布

马鹤宁

最新推荐文章于 2025-03-25 21:48:10 发布

阅读量587

点赞数 1

分类专栏：文生图系列文章标签：机器学习人工智能深度学习 stable diffusion 文生图 AIGC 计算机视觉

本文链接：https://blog.csdn.net/weixin_42111770/article/details/132365277

版权

文生图系列专栏收录该内容

12 篇文章

订阅专栏

文章目录

此篇论文是DDPM的奠基之作，后续扩散模型相关论文都基本继承了前向加噪-反向降噪-训练这样的框架。论文全是公式，理解起来好难好难。

【文生图系列】基础篇-马尔可夫链
 【文生图系列】基础篇-变分推理（数学推导）

扩散模型

扩散模型是扩散概率模型（diffusion probabilistic model）的简称，它是一个参数化的马尔科夫链，使用变分推理进行训练，以在有限的时间后生出与数据匹配的样本。扩散模型包括前向过程(forward process)和反向过程(reverse process)，其中前向过程也被成为扩散过程(diffusion process)，它逐渐地从方差表(variance schedule) $\beta_{1}, \cdots, \beta_{T}$ 中向数据中添加高斯噪声。反向过程则相反，不断去除噪声，用于生成图片。
在这里插入图片描述
如上图所示，前向扩散过程是从 $x_{0} \to x_{T}$ ，每一步的条件概率分布定义为 $q\left( x_{t} | x_{t-1} \right)$ ，逐步地向人脸图像中添加噪声，直至第 $T$ 步时，人脸图像彻底为一张噪声图片。反向过程是从 $x_{T} \to x_{0}$ ，每一步的条件概率分布定义为 $q\left(x_{t-1} | x_{t} \right)$ ，逐步地去除噪声图片中的噪声，以生成人脸图像。但是 $q\left(x_{t-1} | x_{t} \right)$ 却是难以计算的，因此需要学习一个模型 $p_{\theta}$ 近似条件概率。

在这里插入图片描述

扩散过程

从一个真实数据分布中选择一个样本点 $x_{0} \sim q\left( x \right)$ ，每一次向样本中添加少量高斯噪声，执行T次，得到噪音样本序列 $x_{1}, \cdots, x_{T}$ 。前向过程用公式定义如下：
在这里插入图片描述

执行步数由方差表 $\{ \beta_{t} \in \left( 0, 1 \right) \}_{t=1}^{T}$ 控制， $\beta_{t}$ 为第 $t$ 步所采用的方差，它介于 $\left( 0, 1 \right)$ 之间。通常情况下，方差的取值会随着 $T$ 的增大而越来越大 $\beta_{1} < \beta_{2} < \cdots < \beta_{T}$ 。而且随着 $T$ 的增大，样本数据 $x_{0}$ 会逐渐失去它的分布特征，当 $T$ 趋于无穷时， $x_{T}$ 则等价于一个各向同性高斯分布(isotropic Gaussian distribution)。

已知，扩散过程是一个马尔可夫链，每一步都会生成带噪音的数据 $x_{t}$ 。扩散过程的一个重要特性就是可以基于原始样本数据 $x_{0}$ 使用重参数技巧(reparameterization trick)采样任意 $t$ 步的生成数据 $x_{t}$ , $q\left(x_{t} | x_{0} \right)=N\left ( x_{t}, \sqrt{\bar{\alpha }_{t} } x_{0}, \left ( 1 - \bar{\alpha }_{t} \right ) I \right )$ 。

设 $\alpha_{t} = 1 - \beta_{t}, \bar{\alpha}_{t}=\prod_{s=1}^{t}=\alpha_{s}$ ， $q\left(x_{t} | x_{0} \right)$ 的推理过程如下所示：

在这里插入图片描述

反向过程

反向过程是前向过程的反向，从一个高斯噪声输入 $x_{T} \sim N \left( 0, 1 \right)$ 中创建真实案例的过程，如果 $\beta_{t}$ 足够小，那么 $q\left(x_{t-1} | x_{t} \right)$ 也符合高斯分布。但是，需要全部的数据计算 $q\left(x_{t-1} | x_{t} \right)$ ，这是一件很困难的事情，因此，为了能够运行反向扩撒模型，需要学习一个模型 $p_{\theta}$ 近似估计条件概率。

假设 $x_{1}, \cdots, x_{T}$ 为与数据 $x_{0} \sim q\left( x_{0} \right)$ 有相同维度的隐藏变量，扩散模型就是一个隐藏变量模型，用公式表示为 $p_{\theta}\left( x_{0} \right) := \int p_{\theta} \left( x_{0:T} \right) dx_{1:T}$ 。反向过程则可被定义成这样的一个马尔可夫链，初始状态转移为 $p\left( x_{T} \right) = N\left( x_{T}, 0, I \right)$ 。
在这里插入图片描述
$p_{\theta}\left( x_{t-1} | x_{t} \right)$ 为参数化的高斯分布，均值和方差分别是训练的网络 $\mu_{\theta}\left( x_{t}, t \right)$ 和 $\sum_{\theta}\left( x_{t}, t \right)$ 。最终的生成模型就是由这些均值和方差网络组成。

虽然条件分布 $q\left(x_{t-1} | x_{t} \right)$ 是不可直接处理的，但是加上条件 $x_{0}$ 的后验分布 $q\left(x_{t-1} | x_{t} , x_{0} \right)$ 却是可处理的。

在这里插入图片描述
推理过程如下图所示。第一步的 $C\left( c_{t}, c_{0} \right)$ 与 $x_{t-1}$ 无关，可以省略。后验分布 $q\left(x_{t-1} | x_{t} , x_{0} \right)$ 的方差是一个定量，均值是一个依赖 $x_{t}$ 的函数。

在这里插入图片描述

设 $\sigma_{t}^{2} = \tilde {\beta_{t}} = \frac{1 - \bar{\alpha}_{t-1}}{1-\bar{\alpha_{t}}}\beta_{t}$ ，其中 $\beta_{t} = 1 - \alpha_{t}$ ，那么从分布 $p_{\theta}\left( x_{t-1} | x_{t} \right)$ 中采样 $x_{t-1}$ ，计算公式为 $x_{t-1} = \frac{1}{\sqrt{\alpha_{t}}} \left ( x_{t} - \frac{\beta_{t}}{\sqrt{1 - \bar{\alpha}_{t} } } \epsilon_{t} \right ) + \sigma_{t}z$ ，其中 $z$ 服从正态分布 $\sim N \left( 0, I \right)$ 。采样整体过程伪代码见下图Algorithm 2。

在这里插入图片描述

优化目标

如果将扩散模型中间产生的变量看作隐变量的话，那么扩散模型其实就是包含 $T$ 个隐变量的隐变量模型，与VAE相似，不同的是扩散模型的隐变量与原始数据同纬度。那么就可以基于变分推断得到ELBO作为最大优化目标。

推导过程如下图所示，最后的优化目标共包含 $T + 1$ 项。
在这里插入图片描述

$L_{T}$ 计算的是噪音分布和先验分布的KL散度，先验 $p\left( x_{T} \right)$ 服从正太分布，扩散过程最后得到的随机噪音 $q\left( x_{T} | x_{0} \right)$ 也近似正太分布，所以它们两之间的KL散度近似为0。
假设图像数据为的整数，线性缩放到，这样能够保证神经网络反向过程从标准正太分布先验开始，在一致缩放的输入上进行操作。为了能够获得离散对数似然，反向过程中的最后一项设置为一个独立的离散解码器，该解码器源自于高斯分布 $\left( x_{0}, \mu_{\theta} \left( x_{1}, 1 \right), \sigma_{1}^{2}I \right)$ 。