【扩散模型第1篇】扩散概率模型DPM和去噪扩散概率模型DDPM

最新推荐文章于 2024-07-12 19:29:36 发布

我什么都不懂zvz

最新推荐文章于 2024-07-12 19:29:36 发布

阅读量1.2k

点赞数 19

分类专栏：生成模型文章标签：人工智能

本文链接：https://blog.csdn.net/Je1zvz/article/details/136311744

版权

生成模型专栏收录该内容

12 篇文章 0 订阅

订阅专栏

参考阅读：
[1] 张振虎博客

进食顺序如下

1 马尔可夫分层概率模型
2 扩散概率模型
3 去噪扩散概率模型DDPM
4 基于分数解释DDPM
5 扩散模型的三种等价表示
6 改进 DDPM

PS.内容基本上是参考博客的内容，以下内容本人复习用

1 马尔可夫分层概率模型

在这里插入图片描述
扩散模型可以看作是多层的VAE，既编码和解码过程分别重复了 $T$ 次。但无论是前向过程还是反向过程，都遵循马尔可夫过程(Markov chain)：当前时刻 $t$ 仅与其上一时刻相关。

和VAE类似，其对数似然可以写成如下式子，利用詹森不等式可以求出其ELBO：
$\begin{aligned} log p(x) &= log\int p(x,z_{1:T})dz_{1:T}\\ &= log\int \frac{p(x,z_{1:T}q_\phi(z_{1:T}|x)}{q_\phi(z_{1:T}|x)}dz_{1:T}\\ &= log E_{q_\phi(z_{1:T}|x)}[ \frac{p(x,z_{1:T})}{q_\phi(z_{1:T}|x)}]\\ &\ge E_{q_\phi(z_{1:T}|x)}[ \frac{p(x,z_{1:T})}{q_\phi(z_{1:T}|x)}] \end{aligned}$

2 扩散概率模型

在这里插入图片描述
在以上基础上，进行微调便可得到扩散模型：

不再区分 $x$ 和 $z$ ，且尺寸保持不变(VAE中 $z$ 一般小于 $x$ )
前向过程不再需要学习，既 $q(x_t|x_{t-1})$ 固定为一个线性高斯变换，不再使用参数化的模型去拟合。
结合线性高斯变换和马尔科夫链的特性，理论上 $T\rightarrow \infty$ 时， $x_T$ 是一个正态分布，既其收敛到 $N (0, I)$

2.1 前向和反向过程

由上图可知，整个网络可以用前向过程 $q$ 或者反向过程 $p$ 表示，既联合概率可以表示为
$p(x_{0:T})=q(x_0)\prod_{t=1}^Tq(x_t|x_{t-1})=p(x_T)\prod_{t=1}^Tp(x_{t-1}|x_t)$
前向过程又叫扩散过程，是在前进过程中不断增加微小的标准高斯噪声，当 $T$ 很大时，原图趋近于标准高斯噪声；反向过程又叫采样过程，它可以从纯粹的标准高斯噪声随机变量逐渐转变为真实图片。

前向过程

定义
$q(x_t|x_{t-1}) = N(x_{t}; \sqrt{1-\beta_t}x_{t-1},\beta_t I)$
定义这个概率分布为线性高斯变换，是指 $x_t$ 的均值和 $x_{t-1}$ 的值呈线性关系，也就是
$x_t = \sqrt{1-\beta_t}x_{t-1}+\sqrt{\beta_t}\epsilon\space,\epsilon\sim N(0,1)$
且 $\beta$ 满足， $t_1>t_2>...>t_T$ 时，有 $\beta_1<\beta_2<...<\beta_T$ ，且 $\beta\in[0,1]$ 。也可以令 $\alpha_t=1-\beta_t$ ，则 $\alpha_t$ 是单调递减的。则此时式子变成：
$x_t = \sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon$

为什么要有 $\beta$ 系数呢？且为什么要小于1呢？
因为希望渐进 $x_t$ 趋近于标准高斯分布，且 $x_t$ 与 $x_{t-1}$ 呈线性高斯变换，且 $x_t$ 仅与 $x_{t-1}$ 有关，所以 $\mu_x$ 和 $x_{t-1}$ 的关系就是其乘上一个系数，所以设置了 $\beta$ 。设置为小于1，是因为要使得均值趋近于0，方差趋近于1。

因为是线性高斯变换的过程，且根据高斯分布的计算性质（也就是将 $x_{t-2}，\epsilon_{t-2}和\alpha_{t-1}$ 代入到上式的 $x_{t-1}$ 中，如此直到 $x_0$ ），我们可以得出 $x_t$ 和 $x_0$ 的关系,其中令 $\bar\alpha_t=\prod_{t=0}^T\alpha_t$ ：
在这里插入图片描述
所以我们最终得到 $x_t$ 和 $x_0$ 的关系，也是DPM的前提：
$x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon$

所以只要设置了 $\alpha_{0:T}$ ，我们就可以一步从 $x_0$ 解析到 $x_t$ 。

反向过程

反向过程已知是 $p(x_{0:T})=p(x_T)\prod_{t=1}^Tp(x_{t-1}|x_t)$ ，其中 $p(x_T)\sim N(0,I)$ ,而 $p(x_{t-1}|x_t)$ 是难以计算的，我们可以使用神经网络去拟合 $p_\theta(x_{t-1}|x_t)$ 。此处定义含 $\theta$ 的是模型，不含的是真实分布。

2.2 优化目标 ELBO

只有 $x_0$ 是真实数据， $x_{1:T}$ 都是隐变量，所以我们极大化的是边缘分布 $p(x_0)$ 而不是联合分布 $p(x_{0:T})$ 。继续推导ELBO公式，推导过程如下：
在这里插入图片描述
我们得到三项：

reconstruction term： $E_{q(x_1|x_0)}[ln p_\theta(x_0|x_1)]$
prior matching term: $E_{q(x_{T-1}|x_0)}[KL(q(x_T|x_{T-1})||p(x_T))]$
consistency term : $\sum_{t=1}^{T-1}E_{q(x_{t-1},x_{t+1}|x_0)}[KL(q(x_t|x_{t-1})||p_\theta(x_t|x_{t+1}))]$

对于重建损失：
和VAE第一项一样，也是从 $x_1$ 还原回 $x_0$ 的损失

对于先验匹配损失：
这一项并没有可学习参数，函数 $q$ 已知是没有可学习参数的，而 $x_T$ 已知满足标准高斯分布，当 $T$ 很大时，这一项趋近于0

对于consistency loss：
这一项是 $q(x_t|x_{t-1})$ 和 $p_\theta(x_t|x_{t+1})$ 的KL散度，也就是希望解码器 $p_\theta(x_t|x_{t+1})$ 生成的 $x_t$ 和 $q(x_t|x_{t-1})$ 生成的内容保持一致，如下图所示
在这里插入图片描述
他有两个随机变量 $x_{t-1}，x_{t+1}$ ，而是用马尔科夫链采样的方法对于两个随机变量会导致更大的方差，优化过程不稳定，难以收敛。所以直接优化不是很好的option。

根据条件独立性
在这里插入图片描述
我们有 $q(x_t|x_{t-1})=q(x_{t-1}|x_t,x_0)$ ，根据贝叶斯公式，有
$q(x_{t-1}|x_t,x_0)=\frac{q(x_{t-1}|x_{t},x_0)q(x_{t}|x_0)}{q(x_{t-1}|x_0)}$
注意写这一项是因为我们已知前向过程满足马尔科夫链性质，所以前向过程各个随机变量之间是满足条件独立性。而且上述ELBO包含项 $p(x_t|x_{t-1})$
在这里插入图片描述
这三项变为：

reconstruction term： $E_{q(x_1|x_0)}[ln p_\theta(x_0|x_1)]$
prior matching term: $KL(q(x_T|x_0)||p(x_T))$ （原来为 $E_{q(x_{T-1}|x_0)}[KL(q(x_T|x_{T-1})||p(x_T))]$ ）
consistency term : $\sum_{t=2}^TE_{q(x_t|x_0)}[KL(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))]$ （原来为 $\sum_{t=1}^{T-1}E_{q(x_{t-1},x_{t+1}|x_0)}[KL(q(x_t|x_{t-1})||p_\theta(x_t|x_{t+1}))]$ ）

第一项重建损失保持不变；

第二项发生了变化但是没有影响，本质还是约束 $x_T$ 要尽量接近分布 $p(x_T)$ ;

第三项需要采样的变量变为了 $x_{t-1}$ 一个，约束参数化模型 $p_\theta(x_{t-1}|x_t)$ 尽可能接近 $q(x_{t-1}|x_t,x_0)$
在这里插入图片描述

对其进行详细推导：

第一项 $p_\theta(x_0|x_1)$ 依赖于 $x_1$ 的条件高斯分布，假设它的均值 $\mu_\theta$ 是关于 $x_1和t=1$ 的参数化函数，假设方差 $\Sigma$ 是个常量，我们可以用神经网络去拟合它，既 $\mu_\theta(x_1,t=1)$ 。

在这里插入图片描述
模型的输出实际上就是在预测 $x_0$ ，所以更换掉 $\mu$ 符号：

第二项先验匹配项，可知其趋近于0，不需要关注

第三项去噪匹配项，我们先来推导 $q(x_{t-1}|x_t,x_0)$ 的均值和方差：
在这里插入图片描述
可得 $q(x_{t-1}|x_t,x_0)$ 的均值和方差为：
$\begin{aligned} \mu_q(x_t,x_0)&=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t+\frac{\sqrt{\bar\alpha_{t-1}}(1-\alpha_t)}{1-\bar\alpha_t}x_0\\ \Sigma_q(t) &= \frac{(1-\alpha_t)(1-\bar\alpha_{t-1})}{1-\bar\alpha_t} I \end{aligned}$
均值和 $x_0,x_t$ 有关，而方差是一个常数；

而我们第三项的目标是让模型参数尽可能接近真实后验分布，所以模型参数也需要是一个高斯分布也行。我们假设模型参数的均值和方差分别为 $\mu_\theta, \Sigma_\theta$ ，又因为真实后验分布的方差是一个常数，我们简单地设 $\Sigma_\theta=\Sigma_q(t)$ 即可。

两个高斯分布的KL散度计算公式是已知的：
在这里插入图片描述
极大化ELBO，等同于极小化 $KL(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))$ ，等同于极小化他们之间的均值的均方误差。

又已知 $\mu_q(x_t,x_0)=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t+\frac{\sqrt{\bar\alpha_{t-1}}(1-\alpha_t)}{1-\bar\alpha_t}x_0$ , 我们可以人为地定义 $\mu_\theta$ 为一样的形式，既 $\mu_\theta(x_t,t)=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t+\frac{\sqrt{\bar\alpha_{t-1}}(1-\alpha_t)}{1-\bar\alpha_t}\hat{x_0}(x_t,t)$

按如下推导化简均值的均方误差：
在这里插入图片描述
所以又等同于极小化模型的输出和 $x_0$ 之间的均方误差

整合一下：
在这里插入图片描述

2.3 采样过程

我们可以知道模型参数 $p_\theta(x_{t-1}|x_t)$ 的均值和方差，既：
$\begin{aligned} \mu_\theta(x_t,t)&=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t+\frac{\sqrt{\bar\alpha_{t-1}}(1-\alpha_t)}{1-\bar\alpha_t}\hat{x_0}(x_t,t)\\ \Sigma_q(t) &= \frac{(1-\alpha_t)(1-\bar\alpha_{t-1})}{1-\bar\alpha_t} I \end{aligned}$

采样过程（逆过程）：

设定T=1000；
从标准高斯分布中采样 $x_T$
神经网络计算 $\hat x_0(x_t,t)$
计算网络参数均值和方差
从 $p(x_{t-1}|x_t)$ 采样到 $x_{t-1}$
重复3-5，直到t=1

存在的问题是，神经网络每时每刻都在预测 $x_0$ ，但实际上当t较大时， $x_t$ 距离 $x_0$ 应该比较远，意味着同样的参数，要解决不同的t。所以DPM的生成质量不高。

3 去噪扩散概率模型DDPM

之前的前向过程，我们可以得到 $x_t=\sqrt{\bar\alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon$ ，所以反过来，有
$x_0 = \frac{x_t-\sqrt{1-\bar\alpha_t}\epsilon}{\sqrt{\bar\alpha_t}}$

代入到 $\mu$ 的计算中，可得：
在这里插入图片描述
同样也对 $\mu_\theta$ 做一样的参数化，可得
$\mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}\sqrt{\alpha_t}}\hat\epsilon_\theta(x_t,t)$

一起代入之前的均值的均方误差，得：
在这里插入图片描述

此时的训练过程变为（对每一个时刻 $t$ ）：

从标准正态分布中随机采样一个噪声，注意每一时刻的 $t,\epsilon$ 都是不同的。
通过前向传导计算出 $x_t$
将 $x_t$ 和 $t$ 传入模型计算出预测噪音 $\hat\epsilon_\theta(x_t,t)$
与采样得到的噪声计算均方误差

直觉上来说，模型预测噪声要比直接预测输出 $x_0$ 合理的多，以下为训练过程的伪代码。
在这里插入图片描述

以下为采样过程的伪代码：
在这里插入图片描述
首先从标准正态分布中采样 $x_T$ ，然后模型预测噪声，通过 $x_0(x_t,\epsilon)$ 的式子计算出 $\tilde x_0$ ，然后通过 $\mu_t(x_t,\tilde x_0)$ 计算出均值，如果 $t\not = 1$ ，则 $x_{t-1}=\tilde \mu +\sigma_t z$ ，加上随机噪声（加了效果会更好）。
最后 $t = 1$ 时刻，预测出的 $x_0$ 实际上是模型输出的均值
在这里插入图片描述
至此，DPM和DDPM模型理论部分就学习完毕了