【学习笔记】扩散模型的基本原理与训练方法

坩埚花菜嘎嘎香

已于 2024-05-10 17:05:05 修改

阅读量570

点赞数 5

文章标签：学习笔记深度学习计算机视觉

于 2024-05-09 21:13:45 首次发布

本文链接：https://blog.csdn.net/m0_59701064/article/details/138631942

版权

1. Diffusion前向过程

给定采样自数据集的真实图片 $x_0 \sim q(x)$ ，并对其添加高斯噪声，共进行 $T$ 步，称该过程为 $q$ 过程，能够得到添加噪声后的图片分布 $x_1,x_2,...,x_T$ 。

将加噪的过程看作一个马尔可夫过程，即 $t$ 时刻的状态只与 $t - 1$ 时刻有关，设置超参数 $\beta_t \in (0,1), t\in(1,T)$ ，本质上该超参数即为每一时刻下添加的高斯分布的方差。至此可以将该前向 $q$ 过程写成以下形式，表示在 $x_{t-1}$ 满足的分布前提下， $x_{t}$ 的方差为 $\beta_t$ ，均值则受到了前一个状态的影响。
$q(x_t|x_{t-1})=\mathcal N(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_t \mathbf{I})$
实际场景中， $\beta$ 是随着 $t$ 的增大而递增的，那么当 $t$ 很大时， $\beta_t$ 趋近于1，则 $x_t$ 满足的分布接近于标准正态分布。【 $\beta_t$ 这一超参数的存在本质是描述方差，但却在均值上乘上了 $\sqrt{1-\beta_t}$ ，这能够使得均值在 $t$ 很大的时候趋向于0，整个分布则为标准正态分布。】

由于以上过程看作一个马尔可夫过程，因此根据乘法公式可以写出以下表达式：
$q(x_{1:T}|x_0)=\prod_{t=1}^{T}q(x_t|x_{t-1})$

重参数技巧（reparameterization trick）

以上前向的 $q$ 过程的表达形式是采样形式的，表示在某个分布中进行随机采样，这回导致过程有随机性，无法反向传播梯度，为了使该采样过程变得可导，使用冲参数技巧，引入一个固定的随机变量 $\epsilon$ 实现。

例如需要进行以下采样： $\sim \mathcal N (z;\mu_\theta,\sigma_{\theta}^{2}\mathbf{I})$ ，可以写成： $z=\mu_{\theta}+\sigma_{\theta}\odot\epsilon$ ，这样的话 $z$ 依旧是一个随机变量，但对于 $\mu_{\theta}$ 和 $\sigma_{\theta}$ 等含有网络参数的参数，能够通过 $z$ 进行梯度的求取，随机性完全来自于固定不变服从标注正态分布的$\epsilon $中了。

那么对于原先的 $q$ 过程，可以使用重参数技巧重写 $x_t$ ，即：
$x_t=\sqrt{1-\beta_t}x_{t-1}+\sqrt{\beta_t}z，z \sim \mathcal N (0,\mathbf{I})$

使用统一的方法表示 $x_t$

由于上述扩散过程是一步步进行的，为了能够快速得到 $x_t$ ，考虑使用 $x_0$ 和 $\beta$ 进行统一表示。

首先假设 $\alpha_t=1-\beta_t$ ，并记 $\overline{\alpha_t}=\prod_{i=1}^{T}\alpha_i$ 。

则对 $x_t$ 有以下推导过程：

$\begin{aligned} %aligned命令对齐，在对齐的地方用"&" x_t &=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}z_1 \\\ &=\sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}z_2)+\sqrt{1-\alpha_t}z_1 \\\ &=\sqrt{\alpha_t \alpha_{t-1}}x_{t-2}+\sqrt{\alpha_t(1-\alpha_{t-1})}z_2+\sqrt{1-\alpha_t}z_1 \\\ &=\sqrt{\alpha_t \alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_t \alpha_{t-1}}\overline{z_2} \\\ & ... \\\ &=\sqrt{\overline{\alpha_t}}x_0+\sqrt{1-\overline{\alpha_t}}\ \overline{z_t} \end{aligned}$

其中对于 $\sqrt{\alpha_t(1-\alpha_{t-1})}z_2+\sqrt{1-\alpha_t}z_1=\sqrt{1-\alpha_t \alpha_{t-1}}\overline{z_2}$ 的推导过程，有以下分析：

$\sqrt{\alpha_t(1-\alpha_{t-1})}z_2 \sim \mathcal N(0,\alpha_t(1-\alpha_{t-1})\mathbf{I}) \\\ \sqrt{1-\alpha_t}z_1 \sim \mathcal N (0,(1-\alpha_t)\mathbf{I}) \\\ \sqrt{\alpha_t(1-\alpha_{t-1})}z_2+\sqrt{1-\alpha_t}z_1 \sim \mathcal N(0,(1-\alpha_t \alpha_{t-1})\mathbf{I}) \\\$

对于得到的混合高斯分布 $\mathcal N(0,(1-\alpha_t \alpha_{t-1})\mathbf{I})$ ，可以表达为 $\sqrt{1-\alpha_t \alpha_{t-1}}\overline{z_2}$ ，对于 $\overline{z_2}$ 依然服从的是标准高斯分布。

综上，对于 $x_t$ 的表达式形式为 $x_t=\sqrt{\overline{\alpha_t}}x_0+\sqrt{1-\overline{\alpha_t}}z$ ，采样形式为 $q(x_t|x_0) \sim \mathcal N(x_t;\sqrt{\overline{\alpha_t}}x_0,(1-\overline{\alpha_t})\mathbf{I})$ 。可以看成原始图片与高斯噪声的加权求和结果。

2. Diffusion逆向推断

该过程可以看成前向 $q$ 过程的逆过程，即去噪过程。目前在这里我们已知所有的前向过程 $q(x_t|x_{t-1})$ ，想要从标准正态分布中逐步去噪得到最终的原图分布，即从 $x_T$ 得到 $x_0$ ，那么就需要知道 $q(x_{t-1}|x_t)$ 。但这是十分困难的，因此考虑使用深度神经网络来对该分布进行预测，即训练一个模型使其能够做到 $p_{\theta}(x_{t-1}|x_t)$ 。【即让神经网络去学习去噪的过程】

对于 $p_{\theta}(x_{t-1}|x_{t})$ ，写成正态分布的表达形式，即为下式，可以看到我们需要使网络根据 $x_t$ 和 $t$ 学习得到分布的均值与方差。

$p_{\theta}(x_{t-1}|x_t)=\mathcal N (x_{t-1};\mu_{\theta}(x_t,t),\Sigma_{\theta}(x_t,t))$

虽然 $q(x_{t-1}|x_t)$ 难以直接得到，但是可以引入已知的原图像分布 $x_0$ 的先验知识，尝试得到 $q(x_{t-1}|x_t,x_0)$ ，可以进行以下过程推导：

$\begin{aligned} q(x_{t-1}|x_t,x_0)&=\frac{q(x_{t-1},x_{t},x_{0})}{q(x_t,x_0)} \\\ &=\frac{q(x_{t-1},x_t,x_0)}{q(x_{t-1},x_0)}\frac{q(x_{t-1},x_0)}{q(x_t,x_0)} \\\ &=q(x_t|x_{t-1},x_0)\frac{\frac{q(x_{t-1},x_0)}{q_{x_0}}}{\frac{q(x_t,x_0)}{q_{x_0}}}\\\ &=q(x_t|x_{t-1},x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} \end{aligned}$

由此将加入先验知识的逆向分布转换为正向分布的表达式。

对于几个前向过程进行表达式说明：

$q(x_{t-1}|x_0)=\sqrt{\overline{\alpha_{t-1}}}x_0+\sqrt{1-\overline{\alpha_{t-1}}}z \sim \mathcal N (\sqrt{\overline{\alpha_{t-1}}}x_0,1-\overline{\alpha_{t-1}}) \\\ q(x_{t}|x_0)=\sqrt{\overline{\alpha_{t}}}x_0+\sqrt{1-\overline{\alpha_{t}}}z \sim \mathcal N (\sqrt{\overline{\alpha_{t}}}x_0,1-\overline{\alpha_{t}})$

由于 $q$ 过程是马尔可夫过程，则有：

$q(x_t|x_{t-1},x_0)=q(x_t|x_{t-1})=\sqrt{\alpha_{t}}x_{t-1}+\sqrt{1-\alpha_{t}}z \sim \mathcal N (\sqrt{\alpha_{t}}x_{t-1},1-\alpha_{t})$

而对于高斯分布，我们能够使用概率密度函数的形式进行表达，即： $\mathcal N(\mu,\sigma^2)\propto exp(-\frac{(x-\mu)^2}{2\sigma^2})$ ，则考虑使用概率密度函数描述 $q(x_{t-1}|x_0)、q(x_t|x_0)、q(x_t|x_{t-1},x_0)$ ，如下表达式所示：

$q(x_{t-1}|x_0)\propto exp(-\frac{(x_{t-1}-\sqrt{\overline{\alpha_{t-1}}}x_0)^2}{2(1-\overline{\alpha_{t-1}})}) \\\ q(x_{t}|x_0)\propto exp(-\frac{(x_{t}-\sqrt{\overline{\alpha_{t}}}x_0)^2}{2(1-\overline{\alpha_{t}})}) \\\ q(x_t|x_{t-1},x_0)\propto exp(-\frac{(x_{t}-\sqrt{\alpha_{t}}x_{t-1})^2}{2(1-\alpha_{t})})$

则最终可以表达 $q(x_{t-1}|x_t,x_0)$ ，如下推导所示。由于 $q(x_{t-1}|x_t,x_0)$ 是关于 $x_{t-1}$ 的表达式，则需要进行同类相合并

$\begin{aligned} q(x_{t-1}|x_t,x_0) &=q(x_t|x_{t-1},x_0)\frac{q(x_{t-1}|x_0)}{q(x_t|x_0)} \\\ &\propto exp(-\frac{(x_{t-1}-\sqrt{\overline{\alpha_{t-1}}}x_0)^2}{2(1-\overline{\alpha_{t-1}})}) + exp(-\frac{(x_{t}-\sqrt{\alpha_{t}}x_{t-1})^2}{2(1-\alpha_{t})}) - exp(-\frac{(x_{t}-\sqrt{\overline{\alpha_{t}}}x_0)^2}{2(1-\overline{\alpha_{t}})}) \\\ &=exp(-\frac{1}{2}(\frac{(x_{t-1}-\sqrt{\overline{\alpha_{t-1}}}x_0)^2}{1-\overline{\alpha_{t-1}}}+\frac{(x_{t}-\sqrt{\alpha_{t}}x_{t-1})^2}{1-\alpha_{t}}-\frac{(x_{t}-\sqrt{\overline{\alpha_{t}}}x_0)^2}{1-\overline{\alpha_{t}}})) \\\ &=exp(-\frac{1}{2}((\frac{\alpha_t}{1-\alpha_t}+\frac{1}{1-\overline{\alpha_{t-1}}})x_{t-1}^2-(\frac{2\sqrt{\alpha_t}}{1-\alpha_t}x_t+\frac{2\sqrt{\overline{\alpha_{t-1}}}}{1-\overline{\alpha_{t-1}}}x_0)x_{t-1}+C(x_t,x_0))) \end{aligned}$

其中 $C(x_t,x_0)$ 不含 $x_{t-1}$ 。

考虑到对于概率密度的表达式，可以进行展开操作，即 $\mathcal N(\mu,\sigma^2)\propto exp(-\frac{(x-\mu)^2}{2\sigma^2})=exp(-\frac{1}{2}(\frac{1}{\sigma^2}x^2-\frac{2\mu}{\sigma^2}x+\frac{\mu^2}{\sigma^2}))$ ，与 $q(x_{t-1}|x_t,x_0)$ 的表达式一一对应可知。

$\frac{1}{\sigma^2}=\frac{\alpha_t}{1-\alpha_t}+\frac{1}{1-\overline{\alpha_{t-1}}} \\\ \sigma^2 =\frac{(1-\alpha_t)(1-\overline{\alpha_{t-1}})}{\alpha_t(1-\overline{\alpha_{t-1}})+(1-\alpha_t)}=\frac{\beta_t(1-\overline{\alpha_{t-1}})}{\alpha_t(1-\overline{\alpha_{t-1}})+\beta_t} \\\ =\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}\beta_t$

对于均值，有求得表达式：

$\frac{2\mu}{\sigma^2}=\frac{2\sqrt{\alpha_t}}{1-\alpha_t}x_t+\frac{2\sqrt{\overline{\alpha_{t-1}}}}{-\overline{\alpha_{t-1}}}x_0 \\\ \mu=\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_{t}}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}\beta_t}{1-\overline{\alpha_t}}x_0$

至此，我们在加入 $x_0$ 的先验知识后，能够描述出分布 $q(x_{t-1}|x_t,x_0)$ 的均值和方差的表达式，即

$\mu=\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_{t}}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}\beta_t}{1-\overline{\alpha_t}}x_0 \\\ \sigma^2=\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}\beta_t$

但实际上我们需要通过神经网络来训练出一个分布 $p_{\theta}(x_{t-1}|x_t)$ ，该分布的均值和方差均是含参数的，即上述的 $\mu_{\theta}(x_t,t)$ 与 $\Sigma_{\theta}(x_t,t)$ 。我们考虑使用 $q(x_{t-1}|x_t,x_0)$ 来近似估计 $p_{\theta}(x_{t-1}|x_t)$ ，这显然是可行的，因为 $x_t$ 可以由 $x_0$ 来表示，同理也可以使用 $x_t$ 来表示 $x_0$ 。综上可得以下关于均值和方差的表达式：

$\mu_{\theta}(x_t,t)=\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_{t}}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}\beta_t}{1-\overline{\alpha_t}}x_0 \\\ \Sigma_{\theta}(x_t,t)=\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}\beta_t$

对于其中出现的先验知识 $x_0$ ，考虑使用 $x_t$ 来表达，即有：
$x_0=\frac{x_t-\sqrt{1-\overline{\alpha_t}}z}{\sqrt{\overline{\alpha_t}}}$
代入均值 $\mu_{\theta}(x_t,t)$ 的表达式，有以下推导过程：

$\begin{aligned} \mu_{\theta}(x_t,t)&=\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_{t}}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}\beta_t}{1-\overline{\alpha_t}}x_0 \\\ &=\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_{t}}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}\beta_t}{1-\overline{\alpha_t}}\frac{x_t-\sqrt{1-\overline{\alpha_t}}z}{\sqrt{\overline{\alpha_t}}} \\\ &=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}z) \end{aligned}$

观察表达式可以发现， $\alpha_t$ 、 $x_t$ 、 $\overline{\alpha_t}$ 均为已知量，模型需要确定 $\mu_{\theta}(x_t,t)$ ，本质上是个噪声预测的过程，即对于上式中的 $z$ ，需要交给神经网络去预测，记为 $z_{\theta}(x_t,t)$ 。

综上，反向去噪过程可以概括为：

根据 $x_t$ 和 $t$ 预测高斯噪声 $z_{\theta}(x_t,t)$ ，则能够得到模型预测的去噪后的分布均值 $\mu_{\theta}(x_t,t)$ ，其实就是去噪后的图像。
得到方差 $\Sigma_{\theta}(x_t,t)$ ，在DDPM中方差是untrained的，即 $\Sigma_{\theta}(x_t,t)=\frac{1-\overline{\alpha_{t-1}}}{1-\overline{\alpha_t}}\beta_t$ ，但对于方差也可以进行训练估计。
$p_{\theta}(x_{t-1}|x_t)=\mathcal N (x_{t-1};\mu_{\theta}(x_t,t),\Sigma_{\theta}(x_t,t))$ 进行去噪，获得 $x_{t-1}$ ，通过重参数技巧。

3. 训练方式与策略

常规的训练流程

从数据集中采样得到 $x_0$ ， $x_0 \sim q(x)$ ，并在 $1... T$ 中随机采样一个 $t$ 。
从标准高斯分布中采样一个噪声 $z\sim \mathcal N (0,\mathbf{I})$ 。
根据重参数技巧得到 $x_t=\sqrt{\overline{\alpha_t}}x_0+\sqrt{1-\overline{\alpha_t}}z$ 。
训练UNet，输入 $x_t$ 和 $t$ ，模型输出 $z_{\theta}(x_t,t)$ ，将 $z_{\theta}(x_t,t)$ 和 $z$ 做Loss。

推理流程

从标准高斯分布中采样得到一个噪声 $x_t \sim \mathcal N(0,\mathbf{I})$ 。
从 $T$ 到1遍历变量 $t$ ，如果 $t == 1$ 则 $z = 0$ ，否则采样噪声 $z\sim\mathcal N(0,\mathbf{I})$ 。
UNet推理得到 $z_\theta(x_t,t)$ ，进行去噪 $x_{t-1}=\frac{1}{\sqrt{\overline{\alpha_t}}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}z_{\theta}(x_t,t))+\Sigma_{\theta}(x_t,t)z$ 。
得到 $x_0$ 。

4. Diffusion的应用拓展

Diffusion做分割（SegDiff）

在这里插入图片描述

要点：将待分割图像作为condition image进行特征的提取，在进入UNet之前进行特征的融合，扩散生成的为mask。

训练 $\mu_{\theta}(x_t,t)$ 时，需要加入图像的特征，即 $\mu_{\theta}(x_t,t,I)$ ，推理时同理。

Diffusion做分割（SegDiff）

[外链图片转存中…(img-fszHBj2E-1715260213416)]

要点：将待分割图像作为condition image进行特征的提取，在进入UNet之前进行特征的融合，扩散生成的为mask。

训练 $\mu_{\theta}(x_t,t)$ 时，需要加入图像的特征，即 $\mu_{\theta}(x_t,t,I)$ ，推理时同理。

坩埚花菜嘎嘎香

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
【学习笔记】扩散模型的基本原理与训练方法

1. Diffusion前向过程给定采样自数据集的真实图片x0∼q(x)x_0 \sim q(x)x0∼q(x)，并对其添加高斯噪声，共进行TTT步，称该过程为qqq过程，能够得到添加噪声后的图片分布x1,x2,...,xTx_1,x_2,...,x_Tx1,x2,...,xT。将加噪的过程看作一个马尔可夫过程，即ttt时刻的状态只与t−1t-1t−1时刻有关，设置超参数βt∈(0,1),t∈(1,T)\beta_t \in (0,1), t\in(1,T)βt∈(0,1),t∈(1,T) ，
复制链接

扫一扫