【扩散模型第2篇】去噪扩散隐式模型DDIM

最新推荐文章于 2024-07-12 16:55:56 发布

我什么都不懂zvz

最新推荐文章于 2024-07-12 16:55:56 发布

阅读量1k

点赞数 26

分类专栏：生成模型文章标签：人工智能

本文链接：https://blog.csdn.net/Je1zvz/article/details/136357536

版权

生成模型专栏收录该内容

12 篇文章 0 订阅

订阅专栏

参考：
[1] 张振虎博客DDIM
[2] https://www.bilibili.com/video/BV1Ra4y1F73C/?spm_id_from=333.337.search-card.all.click

1 DDPM简单回顾

DDPM的核心思想是构建一个马尔可夫链式结构，逐步往 $x_0$ 添加不同强度的高斯噪声，令其最终变成标准正态分布，这个过程又叫扩散过程。逆向阶段是降噪的过程，目的是为了估计降噪转换核 $p(x_{t-1}|x_t)$ ,就可以从一个正态分布的高斯噪声 $x_T$ 逐步降噪生成近似于真实图像数据的概率分布，就可以去采样生成一张新图像了。

整个网络的概率分布可以由 $p(x_{0:T})$ 表示，根据链式法则，扩散过程可以表示为：
$p(x_{0:T})=q(x_0)\prod_{t=1}^T q(x_t|x_{t-1})$
前向扩散过程的转换核 $p(x_t|x_{t-1})$ 是线性高斯转换，概率密度为
$p(x_t|x_{t-1}) = N(\sqrt{\alpha_t}x_{t-1},\sqrt{1-\alpha_t}I)$
既在 $x_{t-1}$ 的基础上添加高斯噪声得到 $x_t$ ，高斯噪声的均值为0，方差为 $1-\alpha_t$ 。再利用条件高斯概率的计算技巧，可以得到
$q(x_t|x_0) = N(\sqrt{\bar\alpha_t}x_0,\sqrt{1-\alpha_t}\epsilon)$

逆向过程的联合概率可以表示为
$p(x_{0:T})=p(x_T)\prod_{t=1}^Tp(x_{t-1}|x_t)$

我们的主要目标就是估计降噪的转换核 $p(x_{t-1}|x_t)$ 的近似表示，根据似然最大理论，我们要极大化观测数据 $x_0$ 的对数似然（ $x_{1:T}$ 均为隐变量），既
$log\space p(x_0) = log\int p(x_{0:T})dx_{1:T}$
但正是因为隐变量的积分形式，导致无法直接极大化对数似然。但可以利用詹森不等式对该形式进行等价替换，既
$\begin{aligned} E_{q(x_0)}[log\space p(x_0)]&\ge E_{q(x_{1:T}|x_0)}[log\frac{p(x_{0:T)}}{q(x_{1:T}|x_0)}]\\ &\Rightarrow E_{q(x_1|x_0)}[log p_\theta(x_0|x_1)]-\sum_{t=2}^T E_{q(x_t|x_0)}[KL(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t)] \end{aligned}$

代入各项之后可以得到最终的优化目标是一个均方误差，既
$\sum_{t=1}^TC E_{q(x_t|x_0)}[|| \epsilon_t-\hat\epsilon_\theta(x_t,t)||^2]$

2 DDIM解决了什么

2.1 DDPM的问题和可能解决方法

众所周知，DDPM的一个缺点就是其采样生成的过程十分缓慢，明显且主要的一个原因就是，降噪采样过程的TimeSteps通常是非常大的，在DDPM原论文中， $T = 1000$ 。而降噪过程是一步一步降噪的。那么

（1）是否能令 $T$ 更小一些？
答：不可以。由DDPM可知，
$x_t = \sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon, \epsilon\sim N(0,1)\\ x_t = \sqrt{\bar\alpha_t}x_{0}+\sqrt{1-\bar\alpha_t}\epsilon, \epsilon\sim N(0,1)$
而 $\beta$ 的值介于(0.02,0.0001)之间，随着 $t$ 增大， $\beta_1<\beta_2<...<\beta_t$ ，也就是 $\alpha_1>...>\alpha_t$ ，也就是 $t$ 越大， $\bar\alpha_t$ 越小（因为 $\alpha$ 都小于1）
也就是说，只有 $t$ 非常大的时候， $\sqrt{\bar\alpha_t}$ 才能非常小， $\sqrt{1-\bar\alpha_t}$ 才能接近于1，我们得到的 $x_t$ 才能近似于 $\epsilon \sim N(0,1)$ 。所以不可以。

（2）是否能跳步采样呢？
答：同样也不可以，我们的模型的最终要拟合的概率分布
$p(x_{t-1}|x_t,x_0)=\frac{p(x_t|x_{t-1},x_0)p(x_{t-1}|x_0)}{p(x_t|x_0)}$
都是基于马尔科夫链才得到的，如果我们跳步采样，那就是不遵循马尔科夫过程，那么以上公式也就不成立。

ps. 为什么说我们的最终目标是拟合上边这个后验分布呢？我们的模型不是输出噪声吗？我们的模型输出噪声 $\epsilon_\theta$ ,随后我们会根据 $\hat x_0 = \frac{x_t-\sqrt{1-\bar\alpha_t}\epsilon_\theta}{\sqrt{\bar\alpha_t}}$ 的式子去得到 $\hat x_0$ ，然后我们根据 $p(x_{t-1}|x_t,x_0)$ 的均值公式代入 $x_t，\hat x_0$ 去计算出 $\mu_\theta$ ，我们这个 $\mu_\theta$ 才是模型的输出，也就是该概率分布的期望。

2.2 去马尔可夫过程

再来看 $p(x_{t-1}|x_t,x_0)$ ，我们需要知道前提条件 $x_0$ 和 $x_t$ ，而 $x_0$ 是我们的观测数据， $x_t$ 可以由 $q(x_t|x_0)$ 得到，所以说 $x_t$ 也不依赖于 $x_{t-1}$ 。那么 $q(x_t|x_0)$ 是如何得来的呢？它是由联合概率的边际化得到的，也就是：
$q(x_t|x_0)=\int q(x_{1:t}|x_0)dx_{1:t-1}$
在DDPM论文中，对其分解是利用马尔科夫链的形式分解的，但无论如何分解，最终都是将积分形式去掉，还有很多种不同的分解方法，但无论如何分解，最终的 $q(x_t|x_0)$ 的结构都是一样的，所以前向过程的马尔科夫链不是必须的。

我们只要保持 $p(x_{t-1}|x_t,x_0)$ 和 $q(x_t|x_0)$ 的形式和DDPM保持一致，我们就可以构建一个非马尔可夫链的DDPM等价模型，也就可以实现跳步采样操作了。

以下为正式推导过程

我们可以设 $s\le k-1$ （如果 $s = k - 1$ 的话实际上就相当于 $t, t - 1$ 了），为了保持形式不变，我们有：
$p(x_s|x_k,x_0)=\frac{p(x_k|x_s,x_0)p(x_s|x_0)}{p(x_k|x_0)}$
且已知DDPM中， $p(x_{t-1}|x_t,x_0)$ 的均值和 $x_t,x_0$ 有关，所以我们可以设
$p(x_s|x_k,x_0) = N(x_s; kx_0+mx_k, \sigma^2I)$
其中 $k,m,\sigma$ 均为未知量。对于非马尔可夫过程， $p(x_t|x_0)$ 也是成立的。所以有：
$\begin{aligned} x_s &= kx_0+mx_k+\sigma\epsilon_1\\ &= kx_0+m(\sqrt{\bar\alpha_k}x_0+\sqrt{1-\bar\alpha_k}\epsilon_2)+\sigma\epsilon_1\\ &=(k+m\sqrt{\bar\alpha_k})x_0 + m\sqrt{1-\bar\alpha_k}\epsilon_2+\sigma\epsilon_1\\ &=(k+m\sqrt{\bar\alpha_k})x_0 +\sqrt{m^2(1-\bar\alpha_k)+\sigma^2}\epsilon\\ &= \sqrt{\bar\alpha_s}x_0 + \sqrt{1-\bar\alpha_s}\epsilon \end{aligned}$

所以我们可以得到：
$\begin{aligned} m &= \sqrt{\frac{1-\bar\alpha_s-\sigma^2}{1-\bar\alpha_k}}\\ k &= \sqrt{\bar\alpha_s}-\sqrt{\frac{\bar\alpha_k(1-\bar\alpha_s-\sigma^2)}{1-\bar\alpha_k}} \end{aligned}$
将其代入到 $\mu_p = kx_0+mx_k$ ，得
$\mu_p = \sqrt{\bar\alpha_s}x_0+\sqrt{\frac{1-\bar\alpha_s-\sigma^2}{1-\bar\alpha_k}}(x_k-\sqrt{\bar\alpha_k}x_0)$

所以我们最终得到非马尔可夫链的后验分布
$p(x_s|x_k,x_0)\sim N( \sqrt{\bar\alpha_s}x_0+\sqrt{\frac{1-\bar\alpha_s-\sigma^2}{1-\bar\alpha_k}}(x_k-\sqrt{\bar\alpha_k}x_0),\sigma^2 I)$
同样，我们将 $\hat x_0=\frac{x_k -\sqrt{1-\bar\alpha_k}\hat\epsilon_k(x_k,k)}{\sqrt{\bar\alpha_k}}$ 代入上式，我们可以得到 $x_s$ 的采样公式：
$\begin{aligned} x_s &= \sqrt{\bar\alpha_s}x_0+\sqrt{1-\bar\alpha_s-\sigma^2}\frac{x_k-\sqrt{\bar\alpha_k}x_0}{\sqrt{1-\bar\alpha_k}}+\sigma\epsilon_k^*\\ &= \sqrt{\bar\alpha_s}(\frac{x_k -\sqrt{1-\bar\alpha_k}\hat\epsilon_k(x_k,k)}{\sqrt{\bar\alpha_k}})+\sqrt{1-\bar\alpha_s-\sigma^2}\hat\epsilon_k+\sigma\epsilon_k^* \end{aligned}$
其中 $\hat\epsilon_k$ 为预测的噪声， $\epsilon_k^*$ 为随机采样的标准高斯噪声。又或者符号变为以下：
在这里插入图片描述

2.3 标准差的选取

当标准差设为 $\sigma^2 = \frac{(1-\alpha_t)(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}$ （DDPM的形式）

这时DDIM就退化为了DDPM，推导公式如下：
在这里插入图片描述
可见DDPM的期望和DDIM的期望一致，所以说DDPM是DDIM的特例。

当标准差设为 $\sigma^2 =0$

直观来说，就是采样公式的随机噪声项 $\sigma\epsilon_k^*$ 没了，相当于 $x_s$ 等于 $p(x_s|x_k,x_0)$ 的期望。这意味着：

$x_s$ 不再是从 $p(x_s|x_k,x_0)$ 随机采样，而是采样其均值，又其满足高斯分布，也就是采样概率密度分布的最高点，也就是最大概率的采样点。
没有了随机噪声项，整个式子也就变成了确定性等式计算。

那么它是如何加速采样的呢？（以下是从随机性的直观角度，论文是从子序列角度）

方差不为0，相当于 $x_t$ 到 $x_{t-1}$ 的每一步都是随机采样，随机性不可控，会走很多弯路，相当于从 $x_T$ 到 $x_0$ ，虽然目的地方向（期望）是确定的，但是总是在该方向上加上一点随机噪声，自然到达 $x_0$ 的步长会大一些。

方差为0时，笔直地沿着期望的方向走，自然就更快了。

基于分数的生成模型，分数等价于 $p(x_t)$ 的梯度，既沿着 $p(x_0)$ 的方向。我们可以知道梯度和噪声之间的关系：
$\nabla log\space p(x_t) = -\frac{1}{\sqrt{1-\bar\alpha_t}}\hat\epsilon_t(x_t,t)$
所以 $\hat x_0$ 可以用该公式替代掉噪声：
$\hat x_0=\frac{x_k +(1-\bar\alpha_k)\nabla log p(x_k)}{\sqrt{\bar\alpha_k}}$
再将这一项代入 $x_s$ 的采样公式里
$\begin{aligned} x_s &= \sqrt{\bar\alpha_s}\hat x_0 +\sqrt{1-\bar\alpha_s-\sigma^2}\frac{x_k-\sqrt{\bar\alpha_k}\hat x_0}{\sqrt{1-\bar\alpha_k}}+\sigma\epsilon_k^*\\ &= \sqrt{\bar\alpha_s}\frac{x_k +(1-\bar\alpha_k)\nabla log p(x_k)}{\sqrt{\bar\alpha_k}}\\ &+ \sqrt{1-\bar\alpha_s-\sigma^2}[x_k +\sqrt{\bar\alpha_k}(\frac{x_k+(1-\bar\alpha_k)\nabla log p(x_k)}{\sqrt{\bar\alpha_k}})] +\sigma\epsilon_k^*\\ &= ...(懒得推了）\\ &= \sqrt{\frac{\bar\alpha_s}{\bar\alpha_k}}x_k +(\sqrt{\frac{\bar\alpha_s}{\bar\alpha_k}}(1-\bar\alpha_k)-\sqrt{1-\bar\alpha_s-\sigma^2}\bar\alpha_k)\nabla log p(x_k) +\sigma\epsilon_k^* \\&:= Ax_k +B\nabla logp(x_k)+\sigma\epsilon_k^* \end{aligned}$
这就是梯度下降， $\sigma=0$ ，则收敛速度变快