DDPM详解

python学习与分享

已于 2024-08-20 17:38:05 修改

阅读量335

点赞数 16

文章标签：深度学习人工智能

于 2024-08-20 16:38:37 首次发布

本文链接：https://blog.csdn.net/m0_64148253/article/details/141353468

版权

文章目录

前言
一、建模
二、重参数化技巧
三、DDPM理论
四、前向过程
五、反向过程
六、优化目标
七、采样
八、模型结构
总结

前言

DDPM是2020年被提出来的一篇论文，论文全称是《Denoising Diffusion Probabilistic Models》去噪扩散概率模型，这是一种基于马尔科夫链的图像生成模型，其生成的图像质量更好，多样性更强，并且训练更加稳定。DDPM模型的工作原理包括两个主要过程：前向过程（扩散过程）和反向过程（逆扩散过程）。在前向过程中，模型逐步向数据中添加噪声，直到数据完全变成高斯噪声；而在反向过程中，模型则逐步从高斯噪声中去除噪声，最终生成原始数据或新的数据样本。接下来我们详细介绍一下DDPM这篇论文。

一、建模

图像生成可以建模如下图所示：
在这里插入图片描述
首先从一个简单的分布Z中（例如高斯分布）进行采样，然后将其经过神经网络，使得最后生成图像X的概率 $P_{\theta}(x)$ 和从真实分布中采样到图像X的概率 $P_{data}(x)$ 相同。我们要求的就是神经网络的参数 $\theta$ 。
假设我们可以计算出 $P_{\theta}(x)$ 的概率，在 $P_{data}(x)$ 中进行采样的到{ $x^1,x^2,x^3,...,x^m$ }，则神经网络的优化目标就是极大似然估计，

\theta^* = \arg \max_{\theta}\prod_{i=1}^mP_\theta(x^i)

这个公式可以理解为找到一个网络参数 $\theta$ ,让其产生{ $x^1,x^2,x^3,...,x^m$ }的概率连乘最大。也就是说最终连乘概率最大，则 $P_\theta(x)$ 和 $P_{data}(x)$ 两个分布越接近。
为什么最大似然估计（连乘概率越大），两个分布越接近呢？这个是可以通过数学公式推导出来。直接上结果：

\theta^* = \arg \max_\theta\prod_{i=1}^mP_\theta(x^i) \approx \arg\min_\theta KL(P_{data}||P_\theta)

因此可以理解为最大似然估计可以近似等于最小化两个分布之间的KL散度。
对于最大似然公式，我们在前面加入 $\log$ ，如下所示：

\arg \max_\theta\prod_{i=1}^mP_\theta(x^i) = \arg \max_\theta\log\prod_{i=1}^mP_\theta(x^i) = \arg\max_\theta\sum_{i=1}^m\log P_\theta(x^i)

对于每一个 $\log P(x)$ ，对其进行变形，
$\log P (x) \\= \int_zq(z|x)\log P(x)dz \\= \int_zq(z|x)\log(\frac{P(z,x)}{P(z|x)})dz \\= \int_zq(z|x)\log(\frac{P(z,x)}{q(z|x)}\frac{q(z|x)}{P(z|x)})dz \\= \int_zq(z|x)\log(\frac{P(z,x)}{q(z|x)})dz + \int_zq(z|x)\log(\frac{q(z|x)}{P(z|x)})dz \\\geqslant\int_zq(z|x)\log(\frac{P(z,x)}{q(z|x)})dz \\= E_{q(z|x)}[\log(\frac{P(x,z)}{q(z|x)})]$
可以得出， $\log P(x)$ 的下界为 $E_{q(z|x)}[\log(\frac{P(x,z)}{q(z|x)})]$ ，最大化 $\log P(x)$ 的问题可以转化为最大化 $E_{q(z|x)}[\log(\frac{P(x,z)}{q(z|x)})]$ 。其中 $q (z ∣ x)$ 可以是任意分布，可以把其看作是模型中编码的过程，根据一个已知输入 $x$ ，映射为 $z$ 的概率。因为模型的参数和输入是确定的，所以 $q (z ∣ x)$ 是一个确定性的分布。

二、重参数化技巧

在正式介绍DDPM之前，首先介绍一下高斯分布的重参数化相关知识。
对于一个高斯分布 $\epsilon\sim\mathcal{N}(0, I)$ ， $\mu+\sigma*\epsilon$ ，则 $y\sim\mathcal{N}(\mu,\sigma^2I)$ 。
$y_1\sim\mathcal{N}(\mu_1,\sigma_1^2I),y_2\sim\mathcal{N}(\mu_2,\sigma_2^2I)$ ，假设 $y_3=y_1+y_2$ ，则 $y_3\sim\mathcal{N}(\mu_1+\mu_2,(\sigma_1^2+\sigma_2^2)I)$ 。
接下来举一个详细的例子说明重参数化的作用。

$y_1 = \mu_1+\sigma_1*\epsilon_1$ , $y_1\sim\mathcal{N}(\mu_1,\sigma_1^2I)$
$y_2 = \mu_2+\sigma_2*\epsilon_2$ , $y_2\sim\mathcal{N}(\mu_2,\sigma_2^2I)$
$y_3 = y_1+y_2$ , $y_3\sim\mathcal{N}(\mu_1+\mu_2,(\sigma_1^2+\sigma_2^2)I)$
$因此，y_3 = \mu_1+\mu_2+\sqrt{(\sigma_1^2+\sigma_2^2)}*\epsilon$ , $\epsilon\sim\mathcal{N}(0,I)$

通过重参数化技巧，我们可以把两个不同的高斯分布的和用一个新的高斯分布表示。

三、DDPM理论

DDPM可以分为两个过程，分别是前向(加噪）过程和反向（去噪）过程。如下图所示：
在这里插入图片描述
前向（加噪）过程对应图中从 $x_0$ 到 $x_T$ 的过程，对于一张图片，逐渐向其中加入噪声，直至照片变成一张高斯白噪声。反向（去噪）过程对应从图中 $x_T$ 到 $x_0$ 的过程，给定一张噪声图片，逐步去噪最终生成完整的照片。DDPM可以理解为照片本来就存在于噪声中，通过不断的去噪把隐藏在噪声中的照片显示出来。
DDPM与经典图像生成模型VAE的区别如下：
在这里插入图片描述
VAE在训练时首先将图片使用编码器映射成简单的分布，然后在使用解码器将简单的分布映射成图片，最后将解码器生成的图片与一开始输入的图片算LOSS。在使用VAE进行图片生成时只需要使用解码器即可，在简单分布中进行采样然后经过解码器生成最终图片。
而DDPM与VAE相比，其前向(加噪）过程看以看作是VAE中的编码器，其反向(去噪)过程可以看作是VAE中的解码器。而与VAE不同的是，其加噪过程是一个确定性的过程，不需要使用模型进行预测。
因此个人认为，DDPM之所以可以生成高质量的图片，是因为其不确定性元素较少，模型的预测难度变低，所以最终生成图片结果质量较好。

四、前向过程

扩散模型的前向过程又称为扩散过程（加噪过程），那么在前向过程中每一步加多少噪声呢？对应的加噪公式对应为：

X_t = \sqrt{(1-\beta_t)}*x_{t-1}+\beta_t*\epsilon \\\epsilon\sim \mathcal{N}(0, I)

下面举一个例子：

对于图片 $x_0$ ，对他进行第一次加噪得到 $x_1$ ，则 $x_1$ 为：
$x_1 = \sqrt{(1-\beta_1)} *x_0+\beta_1*\epsilon_1$
然后进行第二次加噪得到 $x_2$ ，
$x_2 = \sqrt{(1-\beta_2)} *x_1+\beta_2*\epsilon_2$
将 $x_1$ 带入，得到
$x_2 = \sqrt{(1-\beta_2)}*(\sqrt{(1-\beta_1)} *x_0+\beta_1*\epsilon_1)+\beta_2*\epsilon_2\\ =\sqrt{(1-\beta_2)(1-\beta_1)}*x_0+\sqrt{(1-\beta_2)}\beta_1*\epsilon_1+\beta_2*\epsilon_2$
由于 $\epsilon_1,\epsilon_2$ 都是标准高斯分布，根据重参数化技巧， $\sqrt{(1-\beta_2)}\beta_1*\epsilon_1+\beta_2*\epsilon_2$ 可以合并为 $\sqrt{1-(1-\beta_2)(1-\beta_1)}*\epsilon$ 。
因此 $x_2 = \sqrt{(1-\beta_2)(1-\beta_1)}*x_0+\sqrt{1-(1-\beta_2)(1-\beta_1)}*\epsilon$ 。

可以看到， $x_2$ 可以只根据 $x_0$ 和一个标准高斯分布 $\epsilon$ 来表示。在此基础上进行归纳总结，可以得到，

x_t = \sqrt{(1-\beta_1)...(1-\beta_t)}*x_0+\sqrt{(1-(1-\beta_1)...(1-\beta_t)}*\epsilon

令 $\alpha = 1-\beta$ , $\overline{\alpha_t} = (1-\beta_1)(1-\beta_2)...(1-\beta_t)$ ，则最终在前向过程中

x_t = \sqrt{\overline{\alpha_t}}*x_0+\sqrt{1-\overline{\alpha_t}}*\epsilon

\epsilon\sim\mathcal{N}(0,I)

上述公式可以理解为：尽管在理论上从 $x_0$ 加噪到 $x_t$ 的过程中需要经过 $t$ 次的加噪过程，但是实际上在从 $x_0$ 到 $x_t$ 可以根据上述公式一步得到。

五、反向过程

DDPM中反向过程指的是给定一个高斯噪声，然后通过一步一步的去噪最后生成完整照片的过程。可以理解为给定 $x_t$ 生成 $x_{t-1}$ ，进行不断自回归迭代生成最终 $x_0$ 。因此在反向过程中我们只要知道 $q(x_{t-1}|x_t)$ 便可以生成最终的图片 $x_0$ 。
事实上，当 $x_0$ 已知时， $q(x_{t-1}|x_t,x_0)$ 反向过程也是一个确定性的过程。首先根据前向过程中推到的公式我们可以得到：

$q(x_t|x_0) \sim\mathcal{N}(\sqrt{\overline{\alpha_t}}*x_0,(1-\overline{\alpha_t})I)$
$q(x_{t-1}|x_0) \sim\mathcal{N}(\sqrt{\overline{\alpha_{t-1}}}*x_0,(1-\overline{\alpha_{t-1}})I)$
$q(x_t|x_{t-1}) \sim\mathcal{N}(\alpha_t*x_{t-1}],(1-\alpha_t)I)$

根据贝叶斯公式定理，

q(x_{t-1}|x_t) = \frac{q(x_t|x_{t-1})q(x_{t-1})}{q(x_t)}

可以得到，

q(x_{t-1}|x_t,x_0) = \frac{q(x_t|x_{t-1},x_0)q(x_{t-1}|x_0)}{q(x_t|x_0)}

等号右边的三个分布我们都已经知道，根据重参数化技巧，经过一系列复杂的计算，我们可以得到

q(x_{t-1}|x_t,x_0)\sim\mathcal{N}(\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})x_t+\sqrt{\overline{\alpha_{t-1}}}(1-\alpha_t)x_0}{1-\overline{\alpha_t}},(\frac{(1-\alpha_t)(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}})I)

这里 $q(x_{t-1}|x_t,x_0)$ 是真实分布，我们可以在 $x_0$ 已知的情况下求出来的真实存在的分布，与模型无关。可以把其理解为训练过程中的标签，我们要做的是让模型生成这样一个分布。

六、优化目标

在第一节我们说过，我们的优化目标是要找一组网络参数去Maximize
$E_{q(z|x)}[\log(\frac{P(x,z)}{q(z|x)})]$ 。其中, $q (z ∣ x)$ 可以是任意的分布，在DDPM中， $q (z ∣ x)$ 为 $q(x_1:x_T|x_0)$ ， $P (x, z)$ 为 $P(x_0:x_T)$ ，因此，优化目标变为Maximize $E_{q(x_1:x_T|x_0)}[\log(\frac{P(x_0:x_T)}{q(x_1:x_T|x_0)})]$ ，通过复杂的计算可以得到，

E_{q(x_1:x_T|x_0)}[\log(\frac{P(x_0:x_T)}{q(x_1:x_T|x_0)})]\\=E_{q(x_1|x_0)}[\log P(x_0|x_1)]-KL(q(x_T|x_0)||P(x_T))-\sum_{t=2}^TE_{q(x_t|x_0)}[KL(q(x_{t-1}|x_t,x_0)||P(x_{t-1}|x_t)]

其中，我们只需要关注的就是第三项。在第三项中， $q(x_{t-1}|x_t,x_0)$ 的分布我们已经在上一节中求出来了。因此DDPM的优化目标转化为最小化真实分布 $q(x_{t-1}|x_t,x_0)$ 和模型预测的分布 $P_\theta(x_{t-1}|x_t)$ 之间的KL散度即可。

首先我们对已知的 $q(x_{t-1}|x_t,x_0)$ 分布均值形式进行一下变形。

$q(x_{t-1}|x_t,x_0)$ 分布的均值中含有 $x_0$ ，根据
$x_t = \sqrt{\overline{\alpha_t}}x_0+\sqrt{1-\overline{\alpha_t}}\epsilon$

可以得到
$x_0 = \frac{x_t-\sqrt{1-\overline{\alpha_t}}\epsilon}{\sqrt{\overline{\alpha_t}}}$

将其带入 $q(x_{t-1}|x_t,x_0)$ 分布的均值中，可以得到
$q(x_{t-1}|x_t,x_0)\sim\mathcal{N}(\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}\epsilon),(\frac{(1-\alpha_t)(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}})I)$

我们要做的就是模型预测的分布 $P_\theta(x_{t-1}|x_t)$ 和 $q(x_{t-1}|x_t,x_0)$ 分布相同，我们知道 $q(x_{t-1}|x_t,x_0)$ 的分布的方差是一个常数，因此，只要让模型预测的均值和 $q(x_{t-1}|x_t,x_0)$ 分布的均值 $\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}\epsilon)$ 一样即可。
可以看到， $q(x_{t-1}|x_t,x_0)$ 分布的均值中只有 $\epsilon$ 不确定， $\epsilon$ 代表前向过程中从 $x_0$ 到 $x_t$ 这一步中加入的噪声，让模型根据输入的 $x_t$ 和 $t$ 预测 $\epsilon$ 即可。
最后，经过这么多的公式推导，DDPM在训练过程中的Loss可以总结为：

|\epsilon-\epsilon_{\theta(x_t,t)})|^2

可以理解为让模型预测前向过程中加入的噪声，然后与真实噪声算MSE，得到Loss。标签 $\epsilon$ 是前向过程中加入的噪声，这是我们已知的，是一个确定性的东西。

七、采样

在模型训练完成后，我们使用模型进行预测。首先要明确，模型的输入是 $x_t$ 和 $t$ ，输出是从 $x_0$ 到 $x_t$ 过程中加入的噪声 $\epsilon_{\theta}(x_t,t)。$
在得到模型输出后，将其带入到 $q(x_{t-1}|x_t,x_0)$ 分布的均值中，得到 $\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}\epsilon_{\theta}(x_t,t))$ ，需要值得注意的是， $\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}\epsilon_{\theta}(x_t,t))$ 这是一个均值，并不是生成的照片，因为我们当时在推导Loss的目标是最小化两个分布的均值之间的差异。在得到均值后，我们还需要方差，而前面也提到了，真实分布 $q(x_{t-1}|x_t,x_0)$ 的方差是一个常数 $\frac{(1-\alpha_t)(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}}$ ,所以在反向过程中 $P_\theta(x_{t-1}|x_t)$ 的分布是 $P_\theta(x_{t-1}|x_t)\sim\mathcal{N}(\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}\epsilon_{\theta}(x_t,t)),(\frac{(1-\alpha_t)(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}})I)$
因此，最终根据 $x_t$ 得到采样图片 $x_{t-1}$ 的公式为：
$x_{t-1} = (\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\overline{\alpha_t}}}\epsilon_{\theta}(x_t,t))+\frac{(1-\alpha_t)(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}}z$ , $z\sim\mathcal{N}(0,I)$ 。
然后重复上述采样过程，根据 $x_{t-1}$ 采样得到 $x_{t-2}$ ，根据不断的迭代最终采样得到图片 $x_0$ 。

八、模型结构

前面讲完了DDPM的整个训练流程和采样流程，接下来我们介绍DDPM的模型结构。
DDPM采用的是U-net结构的网络模型，输入为image $x_t$ 和当前去噪步数t。其中对于步数t进行embeddind的方法为Transformer中的位置编码。
在这里插入图片描述

总结

DDPM的训练过程和采样过程伪代码如下图所示：
在这里插入图片描述

python学习与分享

关注

16
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
DDPM详解

DDPM是2020年被提出来的一篇论文，论文全称是《Denoising Diffusion Probabilistic Models》去噪扩散概率模型，这是一种基于马尔科夫链的图像生成模型，其生成的图像质量更好，多样性更强，并且训练更加稳定。DDPM模型的工作原理包括两个主要过程：前向过程（扩散过程）和反向过程（逆扩散过程）。在前向过程中，模型逐步向数据中添加噪声，直到数据完全变成高斯噪声；而在反向过程中，模型则逐步从高斯噪声中去除噪声，最终生成原始数据或新的数据样本。接下来我们详细介绍一下DDPM这篇论
复制链接

扫一扫