Diffusion Model（2）：前向扩散过程和逆向降噪过程

MaZhe丶

已于 2022-10-24 21:22:03 修改

阅读量1.7k

点赞数 1

分类专栏：扩散模型深度学习文章标签： 1024程序员节人工智能深度学习

于 2022-10-24 20:51:58 首次发布

本文链接：https://blog.csdn.net/weixin_42363544/article/details/127495570

版权

文章目录

- - Diffusion Model（2）：前向扩散过程和逆向降噪过程
  - - Forward diffusion process
    - Reverse diffusion process (or denoising/generation/sampling)

Diffusion Model（2）：前向扩散过程和逆向降噪过程

观看本文之前建议先观看以下文章：

Diffusion Model（1）：预备知识

在推导过程中会参考其中中的一些公式，使用到的公式都会标注出来。

Diffusion Models（扩散模型）包含以下三类:

diffusion probabilistic models 扩散概率模型 Sohl-Dickstein et al., 2015
noise-conditioned score network 噪声条件分数网络 (NCSN; Yang & Ermon, 2019)
denoising diffusion probabilistic models去噪扩散概率模型 (DDPM; Ho et al. 2020)。

本文以2020年Ho等人的DDPM为例，其包含了前向扩散过程和反向的扩散过程。

其中，前向扩散过程是为了将复杂的分布转化为一个简单的分布。而反向扩散过程则是从简单分布逆转得到复杂分布。

Forward diffusion process

在这里插入图片描述

扩散（Diffusion）在热力学中指细小颗粒从高密度区域扩散至低密度区域，在统计领域，扩散则指将复杂的分布转换为一个简单的分布的过程。

Diffusion模型定义了一个概率分布转换模型 $\mathcal{T}$ ，能将原始数据 $x_0$ 构成的复杂分布 $q_{\mathrm{complex}}$ 转换为一个简单的已知参数的先验分布 $p_{\mathrm{prior}}$ ：
$\begin{equation} \mathbf{x}_0 \sim q_\mathrm{complex}⟹\mathcal{T}(\mathbf{x}_0) \sim p_\mathrm{prior} \end{equation}$
具体来说，Diffusion模型提出可以用马尔科夫链(Markov Chain)来构造 $\mathcal{T}$ ，即定义一系列条件概率分布 $q(\mathbf{x}_t \vert \mathbf{x}_{t-1})\quad t\in\{1,2,3...T\}$ ，将 $\mathbf{x_0}$ 依次转换为 $\mathbf{x_1}$ ， $\mathbf{x_2}$ $,...,\mathbf{x_T}$ ，希望当 $\rightarrow \inf$ 时， $\mathbf{x}_{T} \sim p_{\text {prior }}$ 。

为了简洁和有效，此处的 $p_{\text {prior }}$ 选择高斯分布,因此整个前向扩散过程可以被看作是，在 $T$ 步内，不断添加少量的高斯噪声到样本中。
$\begin{equation} \begin{array}{c} q\left(\mathbf{x}_{t} \vert \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{1-\beta_{t}} \mathbf{x}_{t-1}, \beta_{t} \mathrm{I}\right) \\ q\left(\mathbf{x}_{1: T} \vert \mathbf{x}_{0}\right)=\prod_{t=1} q\left(\mathbf{x}_{t} \vert \mathbf{x}_{t-1}\right)\\ q\left(\mathbf{x}_{T}\right)=p_{\text {prior }}\left(\mathbf{x}_{T}\right)=\mathcal{N}\left(\mathbf{x}_{T} ; \mathbf{0}, \mathrm{I}\right) \quad \text { where } T \rightarrow \inf \end{array} \end{equation}$
即已知 $\mathbf{x_{t-1}}$ 的时候， $\mathbf{x_t}$ 的概率分布为一个平均值为 $\sqrt{1-\beta_{t}} \mathbf{x}_{t-1}$ ，方差为 $\beta_tI$ 的高斯分布。随着 $T$ 的不断增大，最终数据分布变成了一个简单固定的高斯分布。

然后对公式2使用Diffusion Model（1）：预备知识中提到的重参数化技巧（以下Diffusion Model（1）：预备知识中的公式用1-xx代替）进行重参数化可以得到：
$\begin{equation} \mathbf{x}_{t}=\sqrt{1-\beta_{t}} \mathbf{x}_{t-1}+\sqrt{\beta_{t}} \mathbf{z}_{t-1} \quad \text { where } \mathbf{z}_{t-1} \in \mathcal{N}(0, \mathbf{I}) \end{equation}$
这一过程即将高斯分布采样的过程变成了将 $\mathbf{x_{t-1}}$ 与标准高斯分布噪声 $\mathbf{z}$ 混合，扩散率系数 $\beta_t$ 控制融合 $\mathbf{x_{t-1}}$ 分布和标准高斯分布的比例。

设 $\alpha_t=1-\beta_t$ 以及 $\bar{\alpha}_{t}=\prod_{i=1}^{t} \alpha_{i}$ ，那么公式3就变成了：
$\begin{equation} \begin{array}{rlr} \mathbf{x}_{t} & =\sqrt{\alpha_{t}} {\color{blue}\mathbf{x}_{t-1}}+\sqrt{1-\alpha_{t}} \mathbf{z}_{t-1} & ; \text { where } \mathbf{z}_{t-1}, \mathbf{z}_{t-2}, \cdots \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \\ & =\sqrt{\alpha_t}{\color{blue}(\sqrt{\alpha_{t-1}}x_{t-2} + \sqrt{1- \alpha_{t-1}} z_{t-2})} + \sqrt{1- \alpha_t} z_{t-1} & \\ & =\sqrt{\alpha_t\alpha_{t-1}}x_{t-2} + {\color{red}\sqrt{ {\alpha_t}(1- \alpha_{t-1})} z_{t-2} + \sqrt{1- \alpha_t} z_{t-1}} \\ &= \sqrt{\alpha_t\alpha_{t-1}}x_{t-2} + {\color{red}\sqrt{1- \alpha_{t-1}\alpha_t} \bar{z}_{t-2}} & ; \text { where } \bar{\mathbf{z}}_{t-2}, \bar{\mathbf{z}}_{t-3}, \cdots \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\\ & =\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \mathbf{z} & \\ \end{array} \end{equation}$
其中公式4从第一行到第二行是将 $\mathbf{x_{t-1}}$ 继续利用重参数化技巧展开，而从第三行到第四行利用了当两个高斯分布 $\mathcal{N}\left(\mathbf{0}, \sigma_{1}^{2} \mathbf{I}\right)$ 和 $\mathcal{N}\left(\mathbf{0}, \sigma_{2}^{2} \mathbf{I}\right)$ 相加时，新的分布为 $\mathcal{N}\left(\mathbf{0}, (\sigma_{1}^{2}+\sigma_{2}^{2}) \mathbf{I}\right)$

最低0.47元/天解锁文章