（简单易懂）Diffusion Model 扩散模型

ismiaodh

已于 2024-05-06 18:24:13 修改

阅读量1.1k

点赞数 30

分类专栏： DL基础文章标签： python 计算机视觉数据挖掘机器学习神经网络深度学习

于 2024-05-02 15:04:35 首次发布

本文链接：https://blog.csdn.net/qq_39214409/article/details/138392380

版权

DL基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Diffusion Model 扩散模型

文章目录

Diffusion Model 扩散模型

1.基本原理

在这里插入图片描述
Figure 1.

扩散模型包括两个步骤（Fig.1）：
1. 固定的（或预设的）前向扩散过程 $q$ ：该过程会逐渐将高斯噪声添加到图像中，直到最终得到纯噪声。
2. 可训练的反向去噪扩散过程 $p_\theta$ ：训练一个神经网络，从纯噪音开始逐渐去噪，直到得到一个真实图像。
扩散模型目的与前向、反向步骤：
- 学习从纯噪声生成图片的方法
- 前向过程：
  1. 逐步向真实图片添加噪声最终得到一个纯噪声
  2. 对于训练集中的每张图片，都能生成一系列的噪声程度不同的加噪图片
  3. 在训练时，这些【不同程度的噪声图片 + 生成它们所用的噪声】是实际的训练样本
- 反向过程：
  1. 训练好模型后，采样、生成图片

2.数学推导

2.1.前向过程（加噪过程）

在这里插入图片描述

Figure 2.

$q(x_0)$ 代表真实数据分布（大量图片），在此分布中采样可得到真实图片 $x_0\sim q(x_0)$ 。整个过程为马尔可夫过程，后一时刻的数据只受前一时刻的数据影响，根据前一时刻不断在后一时刻加入噪声 $\epsilon\sim \mathcal{N}(0,\mathbf{I})$ ，前向扩散过程为 $q(x_t|x_{t-1})$ ，定义 $0<\beta_1<\beta_2<...<\beta_T<1$ ,则 $t$ 时刻 $\mu_t:\sqrt{1-\beta_t}x_{t-1},\sigma_t:\beta_t\mathbf{I}$ ,则有：
$q(\mathbf{x}_t|\mathbf{x}_{t-1})=\mathcal{N}(\mathbf{x}_t;\sqrt{1-\beta_t}\mathbf{x}_{t-1},\beta_t\mathbf{I}).\\ \mathbf{x}_t=\sqrt{1-\beta_t}\mathbf{x}_{t-1}+\sqrt{\beta_t}\epsilon_t \tag{1}$
$\epsilon_t$ 为每一时刻添加的噪声（均独立同分布），令 $\alpha_t=1-\beta_t,\ \beta_t=1-\alpha_t$ 则有：
$\mathbf{x}_t=\sqrt{\alpha_t}\mathbf{x}_{t-1}+\sqrt{1-\alpha_t}\epsilon_t \tag{2}$
总步长 $x_0\to x_1\to x_2\to ...\to x_t\to...\to x_T,\ T$ 为总步长，迭代求解很慢。由于噪声是独立同分布的可做如下推导：
$q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{\alpha_t}x_{t-1},\ (1-\alpha_t)\mathbf{I})\\ x_t=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon_t \tag{3}$
此处 $x_{t-1}$ 用 $x_{t-2}$ 表示：
$q(x_t|x_{t-2})=\sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}\epsilon_{t-1})+\sqrt{1-\alpha_{t}}\epsilon_t\\ =\sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon_t \tag{4}$
此处，分布独立的情况下由正态分布相加还是正态分布，例：
$\mu_Z=\mu_X+\mu_Y\\ \sigma_Z^2=\sigma_X^2+\sigma_Y^2 \tag{5}$

分布不独立的情况下，两个高斯分布的和的概率密度函数需要卷积运算计算，卷积结果仍然是高斯分布，均值方差如下：
$\mu_Z=\mu_X+\mu_Y\\ \sigma_Z^2=\sigma_X^2+\sigma_Y^2+2\rho\sigma_X\sigma_Y \tag{6}$
其中 $\rho$ 为两个高斯分布的协方差，均值方差系数乘积如 Eq.(7)：
$E[cX]=c\cdot E[X]\\ Var[cX]=c^2\cdot Var[X] \tag{7}$
在 Eq.(4)中 $\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\epsilon_{t-1},\ \sqrt{1-\alpha_t}\epsilon_t$ 为两个正太分布：
$\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\epsilon_{t-1}\sim\mathcal{N}(0,\ (\alpha_t-\alpha_t\alpha_{t-1})\mathbf{I})\\ \sqrt{1-\alpha_t}\epsilon_t\sim\mathcal{N}(0,\ (1-\alpha_t)\mathbf{I}) \tag{8}$
加和后，服从如下：
$\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon_t\sim\mathcal{N}(0+0,\ (\alpha_t-\alpha_t\alpha_{t-1}+1-\alpha_t)\mathbf{I})=\mathcal{N}(0,\ (1-\alpha_t\alpha_{t-1})\mathbf{I}) \tag{9}$
因此 $q(x_t|x_{t-1})\to q(x_t|x_{0})$ 可等价如下：
$\bar{\alpha}_{t}=\prod_{i=1}^{t}\alpha_{i}\\ x_t=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}\epsilon \\ ... \\ x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon\\ q(x_t|x_0)=\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,\ (1-\bar{\alpha}_t)\mathbf{I}) \tag{10}$
根据链式法则：
$\begin{aligned}&P(X_1,X_2,...,X_n)=P(X_1)\cdot P(X_2|X_1)\cdot P(X_3|X_1,X_2)\cdot...\cdot P(X_n|X_1,X_2,...,X_{n-1})\end{aligned} \tag{11}$
条件概率的链式法则：
$\begin{aligned}&q(x_{1:T}|x_0)=q(x_1|x_0)\cdot q(x_2|x_0,x_1)\cdot q(x_3|x_0,x_1,x_2)\cdot...\cdot q(x_T|x_0,x_1,...,x_{T-1})\end{aligned} \tag{12}$

由于扩散过程由马尔可夫链定义，联合概率分布：
$q(x_{1:T}|x_0)=q(x_1|x_0)\cdot q(x_2|x_1)\cdot q(x_3|x_2)\cdot...\cdot q(x_T|x_{T-1})\\ q(x_{1:T}|x_0)=\prod_{i=1}^T q(x_t|x_{t-1}) \tag{13}$

2.2.反向过程（去噪过程）

在这里插入图片描述
Figure 3.

我们希望以加噪数据为输入，模型预测去噪后的数据表示为 $p_{\theta}(x_{t-1}|x_t)$ ，去噪过程同样遵循马尔可夫过程

根据贝叶斯定理：
$P(A|B)=\frac{P(B|A)P(A)}{P(B)} \tag{14}$

$p(x_{t-1}|x_t)=\frac{p(x_{t}|x_{t-1})p(x_{t-1})}{p(x_t)} \tag{15}$

为各项添加 $x_0$ :
$p(x_{t-1}|x_t,x_0)=\frac{p(x_{t}|x_{t-1},x_0)p(x_{t-1}|x_0)}{p(x_t|x_0)} \tag{16}$
由 Eq.(2) 与 Eq.(10) ，得到：
$\mathcal{N}(\sqrt{\alpha_t}x_{t-1},1-\alpha_t)\to P(x_t|x_{t-1},x_0)=\frac1{\sqrt{2\pi}\sqrt{1-a_t}}e^{\left[-\frac12\frac{(x_t-\sqrt{a_t}x_{t-1})^2}{1-a_t}\right]}\\ \mathcal{N}(\sqrt{\bar{\alpha}_t}x_0,1-\bar{\alpha}_t)\to P(x_t|x_0)=\frac1{\sqrt{2\pi}\sqrt{1-\bar{a}_t}}e^{\left[-\frac12\frac{(x_t-\sqrt{\bar{a}_t}x_0)^2}{1-a_t}\right]}\\ \mathcal{N}(\sqrt{\bar{\alpha}_{t-1}}x_0,1-\bar{\alpha}_{t-1})\to P(x_{t-1}|x_0)=\frac1{\sqrt{2\pi}\sqrt{1-\bar{a}_{t-1}}}e^{\left[-\frac12\frac{(x_{t-1}-\sqrt{\bar{a}_{t-1}}x_0)^2}{1-\bar{a}_{t-1}}\right]} \tag{17}$
带入 Eq.(16) 化简后得到：
$P(x_{t-1}|x_t,x_0)\sim \mathcal{N}\left(\frac{\sqrt{a_t}(1-\bar{a}_{t-1})}{1-\bar{a}_t}x_t+\frac{\sqrt{\bar{a}_{t-1}}(1-a_t)}{1-\bar{a}_t}x_0,\left(\frac{\sqrt{1-a_t}\sqrt{1-\bar{a}_{t-1}}}{\sqrt{1-\bar{a}_t}}\right)^2\right) \tag{18}$
在反向过程中，我们想要求解 $x_0$ ，故进一步要将 $x_0$ 替换掉，在正向过程 Eq.(10) 中转换为：
$x_0=\frac{x_t-\sqrt{1-\bar{a}_t}\times\epsilon}{\sqrt{\bar{a}_t}} \tag{19}$
带入 Eq.(18) ：
$P(x_{t-1}|x_t)\sim \mathcal{N}\left(\frac{\sqrt{a_t}(1-\bar{a}_{t-1})}{1-\bar{a}_t}x_t+\frac{\sqrt{\bar{a}_{t-1}}(1-a_t)}{1-\bar{a}_t}\times\frac{x_t-\sqrt{1-\bar{a}_t}\times\epsilon}{\sqrt{\bar{a}_t}},\left(\sqrt{\frac{\beta_t(1-\bar{a}_{t-1})}{1-\bar{a}_t}}\right)\right) \tag{20}$
此时，得到关系式，可以通过 $x_t$ 得到 $x_{t-1}$ 的分布数据（去噪过程），但是噪声 $\epsilon$ 是随机的，确定了 $\epsilon$ 的值就相当于确定了 $x_{t-1}$ 的值，根据 Eq.(10) $x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon$ ,得到目标函数：
$L_{simple}=E_{x_0\sim q(x_0),\epsilon\sim\mathcal{N}(0,I)}\left[\left\|\epsilon-\epsilon_\theta(\sqrt{\overline{\alpha}_t}x_0+\sqrt{1-\overline{\alpha}_t}\epsilon,t)\right\|^2\right] \tag{21}$
其中， $\epsilon_\theta$ 是神经网络预测的噪声， $\epsilon$ 是服从高斯分布的真实噪声

3.参考

【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解

扩散模型公式推导

一文弄懂 Diffusion Model（DDPM）+ 代码实现

ismiaodh

关注

30
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
（简单易懂）Diffusion Model 扩散模型

整个过程为马尔可夫过程，后一时刻的数据只受前一时刻的数据影响，根据前一时刻不断在后一时刻加入噪声。代表真实数据分布（大量图片），在此分布中采样可得到真实图片。为总步长，迭代求解很慢。我们希望以加噪数据为输入，模型预测去噪后的数据表示为。为每一时刻添加的噪声（均独立同分布），令。的分布数据（去噪过程），但是噪声。，去噪过程同样遵循马尔可夫过程。在反向过程中，我们想要求解。此时，得到关系式，可以通过。是服从高斯分布的真实噪声。替换掉，在正向过程。是神经网络预测的噪声，
复制链接

扫一扫

专栏目录