Diffusion Model算法_扩散算法-CSDN博客

本文链接：https://blog.csdn.net/weixin_42010722/article/details/127861427

Diffusion Model算法

导语
1.为什么叫扩散算法
2.Diffusion算法理论
3.算法流程

导语

最近AI绘画应用如火如荼，
有关算法的应用产品也很多，比如DALLE2

官网地址：https://openai.com/dall-e-2/

DALLE2产品描述：DALL·E2是一个新的人工智能系统，可以根据自然语言的描述创建逼真的图像和艺术

其主要功能有：

DALLE 2可以从文本描述中创建原创、逼真的图像和艺术。它可以组合概念、属性和样式。
DALLE 2可以通过自然语言字幕对现有图像进行逼真的编辑。它可以添加和删除元素，同时考虑阴影、反射和纹理。
DALLE 2可以将图像扩展到原始画布之外，创造出更广阔的新构图
DALLE 2可以创建不同的灵感来源于原作。

1.为什么叫扩散算法

AI绘画架构，核心算法就是运用了Diffusion（扩散算法）

举个列子：之前三亚出现游客聚集性新冠，如果当时不选择集中隔离，而是允许游客自由进出，那原本集中在一起的游客病例的特征（也可以说是病例轨迹），因为扩散开来，回到各个城市，那不同的游客的病例特征（病例轨迹）也会因此多样化了。

回到图像中，游客的病例特征也就是对应到图像的特征上（最直接的特征就是图像直方图）

对比以前的GAN也是图像生成的算法
GAN缺点：

GAN训练两个网络，难度较大
不容易收敛，而且多样性比较差,只关注能骗过判别器

GAN所能生成出的图像，其图像特征多样性较差，在训练中，只需要生成器生成的图像能满足当前的判别器，使判别器不能识别出假的即可了。

2.Diffusion算法理论

Diffusion算法可以根据结构，有二个方向分成是前向过程和反向过程

2.1 前向过程

核心：不断对输入的图像数据加入噪声，最后变成一个纯噪声的数据

已知最初的原始图像的数据，前向过程，就是需要求得每一个 $t$ 时刻的图像数据

也就是已知 $x_0$ ,求 $x_2,...,x_t$

每一个时刻添加一个高斯噪声，
由 $x_0$ 到 $x_1$ … $x_N$ 时刻

在这里插入图片描述
每个时刻 $t$ ，加入的噪声是不同的，并且加入噪声的数量，会随着时间，越来越多。

2.1.1 公式推导

设 $t$ 时刻噪声的值 $z_1$ ，是服从高斯分布的，所有噪声都是服从高斯分布的

设 $t$ 时刻噪声值的权重为 $\alpha_t$
$\alpha_t=1-\beta_t$ ，通过 $\beta$ 来调节 $\alpha$ 的值， $\beta$ 是一个小于1的值， $\beta$ 越来越大， $\alpha$ 越来越小。

通过 $\alpha$ 来调节，每个时刻的噪声数量，随着时间，噪声越来越大。

设 $t$ 时刻的图像分布为 $x_t$
$x_t$ 时刻的分布，是由 $t - 1$ 时刻 $x_{t-1}$ 加入噪声得到的，于是得：
$x_t=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}z_t$
其中 $\sqrt{1-\alpha_t}=\sqrt{\beta_t}$

如何得到 $x_t$ ，可以通过 $x_{t-1}$ 得到， $x_{t-1}$ 由 $x_{t-2}$ ,依次递归到 $x_0$ 得到
$但是太慢了，运算时间过长，目前我们已知的就只有x_0,如何将x_t用x_0去表示$

步骤1
首先将 $x_{t-1}=\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}z_2$ 带入到 $x_t=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}z_t$ 中得

$x_t = \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t-1}}z_2)+\sqrt{1-\alpha_t}z_1$

步骤2：合并高斯分布
已知每次加入的噪声都服从高斯分布 $z_1,z_2,...~N(0,I)$
$x_t=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+(\sqrt{\alpha_t(1-\alpha_{t-1})}z_2+\sqrt{1-\alpha_t}z_1)$

这里有二个高斯分布 $N(0,1-\alpha_t)$ , $N(0,\alpha_t(1-\alpha_{t-1}))$

由数学公式可以推导若两个独立的高斯分布 $N_1 ~(u_1,\sigma_1^2)$ , $N_2 ~(u_2,\sigma_2^2)$ ，其合并后为 $~(u,\sigma^2)$
其中 $u=u_1+u_2$ ， $\sigma^2=\sigma_1^2+\sigma_2^2$

因此 $N(0,1-\alpha_t)$ , $N(0,\alpha_t(1-\alpha_{t-1}))$ 合并为 $N(0,(1-\alpha_t)^2+\alpha_t^2(1-\alpha_{t-1})^2)$

化简后得
$x_t=\sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}z_3$
其中 $z_3$ 为高斯分布 $z_1,z_2$ 的合并

步骤3
既然 $x_t$ 可以直接通过 $x_{t-2}$ ，那一直推导到 $x_0$ 由此可得
$x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar \alpha_t} z_t$
其中 $\bar \alpha_t=\alpha_t*\alpha_{t-1}*\alpha_{t-2}*\alpha_{t-3}*....*\alpha_0$

现在我们知道了，正向过程，如何由图像转为噪音点图像，现在我们要反过来思考怎么由噪声图像还原到原图像，也叫去噪的过程

也就是已知 $x_t$ ,求 $x_{t-1},...,x_0$

在这里插入图片描述

2.2 后向过程(去噪过程)

已知 $x_t$ ,求 $x_{t-1},...,x_0$

通过贝叶斯公式，可以得：

我们可以通过先验条件 $x_0$ 来求得后验条件 $x_{t-1}$ 或 $x_t$ ，或任何一个 $t$ 时刻的 $x$ 值。也就是说 $P(x_{t-1}|x_0)$ , $P(x_t|x_0)$ 已知
在这里插入图片描述
目的是反向推理： $P(x_{t-1}|x_t)$ ，先验条件为 $x_t$ ，求后验条件 $x_{t-1}$ ，公式如下：

$P(x_{t-1}|x_t)=\frac{P(x_t|x_{t-1})P(x_{t-1})}{P(x_t)}$

其中 $P(x_{t-1})$ , $P(x_t)$ 可以通过先验条件 $x_0$ 求得
也就是 $P(x_{t-1}|x_0)$ , $P(x_t|x_0)$

2.2.1 公式推导

步骤1
因为 $P(x_{t-1}),P(x_t)$ 都可以通过先验条件 $x_0$ 求得，虽然这里 $x_0$ 未知，但可以将 $P(x_{t-1}|x_t)=\frac{P(x_t|x_{t-1})P(x_{t-1})}{P(x_t)}$ 表示为：
$P(x_{t-1}|x_t,x_0)=P(x_t|x_{t-1},x_0)\frac{P(x_{t-1}|x_0)}{P(x_t|x_0)}$

其中 $P(x_{t-1}|x_0)=\sqrt{\bar\alpha_{t-1}}x_0+\sqrt{1-\bar \alpha_{t-1}}z$ ~ $N(\sqrt{\bar\alpha_{t-1}}x_0,1-\bar\alpha_{t-1})$

其中 $P(x_t|x_0)=\sqrt{\bar\alpha_t}x_0+\sqrt{1-\bar \alpha_t}z$ ~ $N(\sqrt{\bar\alpha_t}x_0,1-\bar\alpha_t)$

其中 $P(x_t|x_{t-1},x_0)=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}z$ ~ $N(\sqrt{\alpha_t}x_{t-1},1-\alpha_t)$

步骤2
从式子中可以看到都包含一个 $z$ 的高斯分布（正态分布）
在这里插入图片描述
由高斯分布公式：

可以将三个式子通过正态分布换算为：
在这里插入图片描述

把正态分布展开后，乘法相当于加法，除法相当于减法。
在这里插入图片描述

步骤3

化简步骤2得：
$\hat u_t(x_t,x_0)=\frac{\sqrt{\alpha_t}(1-\bar \alpha_{t-1})}{1-\bar \alpha_t}x_t+\frac{\sqrt{\bar \alpha_{t-1}}\beta_t}{1-\bar \alpha_t}x_0$