Diffusion Model

Domothings_

已于 2023-05-06 13:55:14 修改

阅读量641

点赞数

文章标签：人工智能深度学习

于 2023-02-07 20:35:54 首次发布

本文链接：https://blog.csdn.net/weixin_43521037/article/details/128925383

版权

Diffusion Model

1、什么叫做扩散

扩散，顾名思义就是在一个图像中逐渐引入噪声污染，直到生成完全随机的噪声，并且习得从高斯噪声中恢复数据的能力。

2、GAN和Diffusion的对比

**GAN：**通过生成器和判别器互相对抗生成，最终使得两者互相收敛。

**Diffusion：**用一种更简单的方法来诠释生成模型的生成和学习，更易于理解。

**GAN的缺点：**由于需要同时训练两个网络，这导致两个网络训练难度大且不宜收敛。

在学习过程中可能会学习到我们不想得到的信息，出现无法控制的现象。

3、Diffusion原理

在这里插入图片描述

前向过程 $(The\;forward \; trajectory)$ ：前向过程其实就是不断的往输入数据中添加噪声，直至最终得到一个纯噪声图片。整个过程中的加噪声操作可以被看作为构建标签的过程。

逆向过程 $(The\; reverse \; trajectory)$ ：逆向过程可以看作是去噪的过程，通过迭代一步步的倒退到初试的 $X_0$ 时刻，整个reverse的过程就被称作是一个修复去噪的过程。

4、公式推导

（1) 前向过程 $(The\;forward \; trajectory)$ ：

$α_t = 1-β_t$
由于模型中的噪声添加是按照步骤分次进行的，每个步骤想要添加的噪声量也是不同的（越往后添加的噪声越多），因此加入 β 值，这里的β会随着t的增加逐渐增大（0.0001到0.002），α是β的互补项。
$x_t = \sqrt{a_t}x_{t-1} + \sqrt{1-\alpha_t}{z_1}$
对于当前时刻 t 来说，可以看作是对上一时刻 t-1 的数据添加噪声z1,随着时间推进，加入的噪声则越多,其中z为服从高斯分布 $z_1,z_2$ 。

但是，如果每次得到噪声图都需要将 X 从 X₀ 开始一步步的进行推导的话，整个计算过程将会变得非常漫长，因此便考虑将 X_t 由 X₀ 直接推导出来:

已知 $x_t = \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}{z_1}$ ，可以得到
$x_{t-1}= \sqrt{\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_{t-1}}{z_2}$
将公式(3)代入到公式(2)中可得下式：
$x_t = \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_{t-1}}{z_2}) + \sqrt{1-\alpha_t}z_1$

$\sqrt{\alpha_t\alpha_{t-1}}x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})}{z_2} + \sqrt{1-\alpha_t}z_1$

由于 $z_1$ 和 $z_2$ 都是服从高斯分布 $N (0, I)$ ,则 $z_1$ 服从 $N(0,(1-\alpha_t)I)$ ; $z_2$ 服从 $N(0,\alpha_t(1-\alpha_{t-1})I)$ ;

根据公式 $N(0,\sigma^2_1I)+N(0,\sigma^2_2I)$ ~ $N(0,(\sigma^2_1+\sigma^2_2)I)$

$z_1$ 和 $z_2$ 相加可得: $x_t=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}}$ $z_t$

综上可知， $x_t=\sqrt{\alpha_t\alpha_{t-1}...\alpha_{t-n+1}}x_n+\sqrt{1-\alpha_t\alpha_{t-1}...\alpha_{t-n+1}}$ $\overline{z}_{t-n}$

$x_t=\sqrt{\overline{\alpha_t}}x_0 + \sqrt{1-\overline{\alpha_t}}z_t$ {**}
其中： $\overline{\alpha_t}$ 表示累乘 $\alpha_t\alpha_{t-1}...\alpha_1$

根据以上公式，任意时刻的分布都可以通过初始值 $x_0$ 经过一次计算得到，这也是Diffusion中的第一个核心公式。

（2) 逆向过程 $(The\; reverse \; trajectory)$ ：

贝叶斯公式:
$P (A ∣ B) = P (B ∣ A) * P (A) / P (B)$
在逆向过程中，我们的主要目的是由已知的 $X_t$ ,推导到前一个状态 $X_{t-1}$ ,即求出概率 $q(X_{t-1}|X_t)$

根据公式(7)可知：
$q(X_{t-1}|X_t) = q(X_t|X_{t-1})\frac{q(X_{t-1})}{q(X_{t})}$
公式 (8) 中 $q(X_t|X_{t-1})$ 由前向过程得到，而 $q(X_{t-1})$ 和 $q(X_{t})$ 无法直接得到，故在等式两边加入条件 $X_0$ ,可得：
$q(X_{t-1}|X_t,X_0) = q(X_t|X_{t-1},X_0)\frac{q(X_{t-1}|X_0)}{q(X_{t}|X_0)}$
前向可知：

$q(X_t|X_{t-1},X_0) = \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}{z}$ ~ $N(\sqrt{\alpha_t}x_{t-1},(1-\alpha_t)I)$

$q(X_t|X_0)=\sqrt{\overline{\alpha}_t}x_0 + \sqrt{1-\overline{\alpha}_t} $ $z$ ~ $N(\sqrt{\overline\alpha}_{t}x_0,(1-\overline{\alpha}_t)I)$

$q(X_{t-1}|X_0)=\sqrt{\overline{\alpha}{t-1}}x_0 + \sqrt{1-\overline{\alpha}{t-1}} $ $z$ ~ $N(\sqrt{\overline{\alpha}_{t-1}}x_0,(1-\overline{\alpha}_{t-1})I)$

根据上述三项可知：
$q(X_{t-1}|X_t,X_0) \varpropto exp (- \frac{1}{2}(\frac{(x_t-\sqrt\alpha_tx_{t-1})^2}{\beta_t}+\frac{(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}}x_{0})^2}{1-\overline{\alpha}_{t-1}}-\frac{(x_{t}-\sqrt{\overline{\alpha}_{t}}x_{0})^2}{1-\overline{\alpha}_{t}}))$
注： $N(\mu,\sigma^2)\varpropto exp^{-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}}$

$\beta_t = 1- \alpha_t$

对公式(10)进行合并同类项并展开可得：
$q(X_{t-1}|X_t,X_0) = exp(-\frac{1}{2}((\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}})x_{t-1}^2- (\frac{2\sqrt{\alpha_t}}{\beta_t}x_t+\frac{2\sqrt{\overline{\alpha}_{t-1}}}{1-\overline{\alpha}_{t-1}}x_0)x_{t-1}+ C(x_t,x_0)) ))$
已知：
$exp(-\frac{(x-\mu)^2}{2\sigma^2}) = exp(-\frac{1}{2}(\frac{1}{\sigma^2}x^2-\frac{2\mu}{\sigma^2}x+\frac{\mu^2}{\sigma^2}))$
公式(11)与公式(12)整理归纳可知：

$\overline{\mu}_t(x_t,x_0)= \frac{\sqrt{\alpha_t(1-\overline{\alpha}_{t-1})}}{1-\overline{\alpha}_t}x_t + \frac{\sqrt{\overline{\alpha}_{t-1}}\beta_t}{1-\overline{\alpha}_t}x_0$
根据公式(6)变换可知： $x_0=\frac{1}{\sqrt{\over{\alpha}}_t}(x_t-\sqrt{1-\overline{\alpha}_t}z_t)$

最终可得：
$\tilde{\mu_t}=\frac{1}{\sqrt{a_t}}(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}}z_t)$
其中, $z_t$ 是我们需要预测的每个时刻的噪声。

5、最终流程图

（1）训练过程（前向过程）

2： $x_0$ 为训练集中的对比图像；

3： $t$ 为前向过程的扩散轮数，类似于transformer中的位置编码，对于每一个数据，会随机分配不固定的轮数 $t$ ，其目的是防止学习到规律；

4： $\epsilon$ 是每个时刻采样得到的噪声，是给定的真实值，对应前文的 $z$ ，噪声严格遵循标准正态分布；

5： $\triangledown_\theta$ 是我们要更新的参数，$\epsilon_\theta $ 是利用模型训练得到的参数， $\sqrt{\overline{\alpha_t}}x_0 + \sqrt{1-\overline{\alpha_t}}\epsilon$ 实则为当前输入的待处理图像。