大白话 | 快速理解扩散模型【DDIM】Denoising Diffusion Implicit Model

欧二lord

于 2025-04-10 13:44:48 发布

阅读量624

点赞数 20

分类专栏：【大白话】计算机视觉算法学习文章标签：计算机视觉深度学习 AIGC 机器学习

本文链接：https://blog.csdn.net/weixin_43117620/article/details/147117002

版权

【大白话】计算机视觉算法学习专栏收录该内容

3 篇文章

订阅专栏

本文基本不设语言门槛，只讲大白话，力求让读者快速理解DDIM（Denoising Diffusion Implicit Model）模型。

本文适合谁来学

本文会讲解DDIM的实现思路，但是会基于DDPM的知识来讲。如果你还不了解DDPM，请先自行学习，或阅读博主此前的文章《大白话 | 从生成模型快速理解【扩散模型】Diffusion Model》。

本文适合哪些读者：

如果你已经了解DDPM的数学推理原理（马尔可夫链、前向加噪反向去噪过程），但是完全不了解DDIM模型，那本文很适合你。
如果你简单了解过DDIM模型，但是有包括但不限于以下几个问题：
- 为什么DDPM模型不可以跳步？
- DDIM的跳步在数学上是怎么推理得到的？
- 为什么说DDIM是确定性的？
- 既然说DDIM是确定性的，为什么跳10步生成和100步的结果清晰度不同？

本文不合适哪些读者：

希望学习到DDIM模型每一步详细的数学推理过程（本文有数学推理过程，但是部分会省略）。
希望结合代码来学习DDIM模型的模型结构。
完全不了解扩散模型或者DDPM，或者完全不具备深度学习、概率统计相关知识。

本文参考：

【串讲系列】讲人话-Stable Diffusion全解（原理+代码+公式）之 DDIM + SDXL Turbo

一文带你看懂DDPM和DDIM（含原理简易推导，pytorch代码）

DDIM模型和DDPM模型的最大区别，在于前者可以跳步，后者不可以，导致后者的生成速度较慢。那为什么DDPM要采样很多步，并且还不能跳步呢？

DDPM采样很多步的原因

当设置总步数T为1000的时候，DDPM要老老实实的从纯高斯噪声 $x_T$ ，通过采样+降噪1000次得到我们想要的图片。那么为什么DDPM要采样1000步呢？（当然1001步、2000步、1w步也都可以，但是必须采样很多步）

原因其一：为了保证反向过程为高斯分布

这里首先需要知道一个结论：对于一个连续的扩散过程，它的前向扩散和后向扩散过程，在 $\beta$ 的变化速率比较小的时候，具有完全相同的函数形式。

这里的 $\beta$ 就是我们在加噪的时候，使用的那个 $\beta_t$ 。在这个公式中出现的：
$x_{t} = \sqrt{1-\beta_{t}}*x_{t-1} + \sqrt{\beta_{t}}*\varepsilon _{t-1}$
就是说，当 $\beta$ 变化速率比较小的时候，如果正向过程的分布 $q(x_t|x_{t-1})$ 是一个高斯分布，那么反向过程的分布 $q(x_{t-1}|x_t)$ 和正向过程的分布一样，也是一个高斯分布。

我们知道，DDPM中的 $\beta_t$ 会存在变化，在加噪过程中会有一个从0到1的变化。那么如果总步数设置的很少，比如T=10，那么相当于 $\beta_t$ 平均每一次都要变化0.1，那就不满足“当 $\beta$ 变化速率比较小”这个条件了，反向过程就无法满足高斯分布。所以需要T很大，比如T=1000，而且一次一步， $\beta_t$ 平均每一次都要变化0.001，才可以保证反向过程近似为高斯分布。

当然这其实是一个近似的过程。稍微展开来说就是，根据正向和反向过程的随机微分方程（SDE）， $\beta$ 根据 $t$ 的导数足够小的时候，可以近似认为 $\beta$ 是一个常数，这样反向过程SDE中的有一项分数函数的系数 $\beta dt$ 可以近似认为是0，此时正向和反向的SDE方程就会具有完全相同的数学结构，那它们的值的分布肯定就是相同的了。

虽然说 $\beta$ 根据 $t$ 的导数越小就也可以近似为0，当然即使T=1000，那一项也不是完全为0的，也就是说其实反向过程并不是100%完全的高斯分布，但是这个近似已经足够我们使用了。所以，其实T=10的时候也勉强能近似为高斯分布，但是还不太够用。这一点其实能解答DDIM为什么步数越多越清晰的问题，我们后面会详细讲。

原因其二：DDPM的Loss简化

对于DDPM的Loss，我们在讲DDPM的时候提到过，Loss里的一些项其实是省略掉的，这其中有一项Loss是：
$\ p_\theta(x_0|x_1)$
那这一项Loss什么时候可以省略呢？我们知道Loss肯定是要最小的，也就是原式的相反数 $\ p_\theta(x_0|x_1)$ 要尽可能大，也就是 $p_\theta(x_0|x_1)$ 要尽可能的大，那么条件概率“当 $x_1$ 发生的时候， $x_0$ 发生的概率”什么时候最大呢？那肯定是 $x_1$ 等于 $x_0$ 的时候最大，并且是 $x_0$ 和 $x_1$ 越接近，这个概率就越大。

于是，当T比较大的时候， $x_0$ 和 $x_1$ 比较接近，这一项Loss就可以省略掉。但是当T比较小的时候，这一项Loss就不能省略了，如果我们还用它省略的形式，去让 $\varepsilon_t$ 和 $\varepsilon_{pred}$ 尽可能接近，就已经不能让此时真正的Loss变小了。所以DDPM需要很多步降噪来省略掉这一项。

DDPM采样不能跳步的原因

DDPM不仅要采样很多步，而且还不能跳步，这是为什么呢？

直接原因：破坏了反向降噪公式

回顾DDPM，在反向降噪过程中，我们用贝叶斯公式，去展开了 $q (x_{t-1} | x_{t},x_0)$ ，得到了这一项高斯分布的参数 $\mu$ 和 $\sigma$ 。那如果现在要跳s步，也就是 $q (x_{t-s} | x_{t},x_0)$ ，我们看看怎么展开：
$(x_{t-s} | x_{t},x_0) = \frac{q(x_t|x_{t-s}, x_0)q(x_{t-s}|x_0)}{q(x_t|x_0)}$
这里 $q(x_{t-s}|x_0)$ 和 $q(x_t|x_0)$ 我们在DDPM中都已经学会了怎么展开，但是 $q(x_t|x_{t-s}, x_0)$ 这一项要怎么做呢？对于 $s = 1$ 的情况， $q(x_t|x_{t-1}, x_0)$ ，因为我们知道DDPM的扩散过程中，所以每一项都只和它的前一项有关（想一下那个递推公式 $x_{t} = \sqrt{1-\beta_{t}}*x_{t-1} + \sqrt{\beta_{t}}*\varepsilon _{t-1}$ ），和其他项都是无关的，所以可以省略 $x_0$ ，即：
$q(x_t|x_{t-1}, x_0) = q(x_t|x_{t-1})$
那 $q(x_t|x_{t-1})$ 根据重参数采样就可以写出来它符合的高斯分布的参数 $\mu$ 和 $\sigma$ 了。

但是对于 $q(x_t|x_{t-s}, x_0)$ ，这一项还可以省略 $x_0$ 吗？当然是不可以了。

根本原因：DDPM是基于马尔可夫链的建模

其实 $q(x_t|x_{t-s}, x_0)$ 无法展开的根本原因，就是在于DDPM是一个基于马尔可夫链的建模。什么是马尔可夫链？简单复习一下：

若随机过程满足 $p(x_t∣x_{t−1},x_{t−2},...,x_0)=p(x_t∣x_{t−1})$ ，则称其具有马尔可夫性，即未来状态仅依赖于当前状态。

也就是未来状态仅依赖当前状态，整个状态推导每一步都是连续的，不可以省略中间的步骤。那么其实就只能得到 $q(x_t|x_{t-1})$ ，至于 $q(x_t|x_{t-s})$ 呢，需要从 $q(x_{t-s+1}|x_{t-s})$ 、 $q(x_{t-s+2}|x_{t-s+1})$ $\cdots$ 一步步推导，不会存在 $q(x_t|x_{t-s})$ 的直接公式，也就无法跳步了。

那我们知道了对于DDPM，由于不知道 $q(x_t|x_{t-s}, x_0)$ ，所以是无法求得 $q(x_{t-s}|x_t, x_0)$ 。那有没有一种方法，可以绕开马尔可夫链的设定，来给出符合 $q(x_{t-s}|x_t, x_0)$ 高斯分布的 $\mu$ 和 $\sigma$ 参数呢？

DDIM

下面我们正式进入DDIM的讲解。

有没有可能绕开马尔可夫链

因为马尔可夫链需要的是前一项和后一项的关系，那我们来观察DDPM中，是否存在并不是前一项和后一项的关系的式子呢？其实是存在的，也就是 $q(x_t|x_0)$ ：
$q(x_t|x_0)=N(x_t;\sqrt{\overline{\alpha _{t}}} \cdot x_0, (1-\overline{\alpha _{t}})I)$
没错，我们在DDPM中，利用 $x_t$ 和 $x_{t-1}$ 的关系，逐步推导过直接得到 $x_t$ 和 $x_0$ 关系的式子。所以有没有一种可能，我们可以直接利用 $q(x_t|x_0)$ ，来推导反向降噪过程，而不使用递推式，从而绕过马尔可夫链呢？

有没有一种可能，利用马尔可夫链来推导 $q (x_{t-1} | x_{t},x_0)$ 的高斯分布的 $\mu$ 和 $\sigma$ 参数仅仅是当 $s = 1$ 时的特殊方法，而更宽泛的** $q(x_{t-s}|x_t, x_0)$ 还有其他可以通过 $x_0$ 来表示的方式**呢？

有没有一种可能，马尔可夫链，其实可有可无？

重新定义反向降噪

现在的目标很明确了，想求 $q(x_{t-s}|x_t, x_0)$ 。已知的有 $q(x_t|x_0)$ 和 $q(x_{t-s}|x_0)$ ：
$q(x_t|x_0)=N(x_t;\sqrt{\alpha _{t}} \cdot x_0, (1-{\alpha _{t}})I)\\ q(x_{t-s}|x_0)=N(x_{t-s};\sqrt{\alpha _{t-s}} \cdot x_0, (1-{\alpha _{t-s}})I)$
这里把 $\alpha$ 上面的横线统一省略了，我们将 $\alpha$ 统一看成一个参数。然后我们把它们都写成重参数采样的形式，并且命名为 $(1)$ 式和 $(2)$ 式：
$x_t = \sqrt{\alpha_t} * x_0 + \sqrt{(1-\alpha_t)} * \varepsilon \cdots \cdots (1) \\ x_{t-s} = \sqrt{\alpha_{t-s}} * x_0 + \sqrt{(1-\alpha_{t-s})} * \varepsilon\cdots\cdots (2)$

重参数采样: 假设 $\varepsilon$ 是标准高斯分布，即 $\varepsilon \sim N(0,1)$ ，那么如果有 $y=\sigma * \varepsilon + \mu$ ，则 $\sim N(\mu,\sigma^2)$ 。

我们先大胆假设 $q(x_{t-s}|x_t, x_0)$ 也是一个高斯分布，并且设出它的 $\mu(x_t,x_0) = m*x_t+k*x_0$ 和 $\sigma_t$ ，其中 $\mu(x_t,x_0)$ 是一个关于 $x_t$ 和 $x_0$ 的线性函数， $\sigma_t$ 是一个和 $x$ 无关的参数，即：
$q(x_{t-s}|x_t, x_0)=N(\mu(x_t,x_0),\sigma_t^2I)$
然后也写出它的重参数采样的形式，并且将 $\mu(x_t,x_0) = m*x_t+k*x_0$ 带入，命名为 $(3)$ 式：
$x_{t-s}=m*x_t+k*x_0+\sigma_t * \varepsilon \cdots \cdots (3)$
我们现在的目标就是将式子 $(3)$ 凑成 $(1)$ 或者 $(2)$ 的形式，并且求得 $k$ 、 $m$ 两个参数，这样就可以验证我们的猜测， $q(x_{t-s}|x_t, x_0)$ 是一个 $\mu$ 是关于 $x_t$ 和 $x_0$ 的线性函数的高斯分布了。

怎么凑呢？我们看到 $(3)$ 左侧的部分和 $(2)$ 一致都是 $x_{t-s}$ ，于是我们让他们的右侧也尽量一致，我们看到 $(2)$ 的右侧没有 $x_t$ ，于是我们将 $(1)$ 带入 $(3)$ 消去 $x_t$ ：
$x_{t-s}=m*(\sqrt{\alpha_t} * x_0 + \sqrt{(1-\alpha_t)} * \varepsilon)+k*x_0+\sigma_t * \varepsilon$
按照 $(2)$ 的形式，整理成 $x_0$ 和 $\varepsilon$ 的形式：
$x_{t-s} = (m*\sqrt{\alpha_t} + k)* x_0 + m*\sqrt{(1-\alpha_t)} * \varepsilon + \sigma_t * \varepsilon$
注意后面这两个 $\varepsilon$ 项是不可以直接合并的，因为这两个 $\varepsilon$ 都是标准高斯的随机变量，它们是独立的。但是我们可以算出来它们合并之后的分布的均值和方差。我们假设他们合并之后的分布为 $\varepsilon'$ ，那这个新的分布的均值应该是原来两个分布的均值之和，方差也是原来两个分布的方差之和，也就是：
$x_{t-s} = (m*\sqrt{\alpha_t} + k)* x_0 + \varepsilon' \\ \varepsilon' \sim N (0, m^2 * (1-\alpha_t) + \sigma_t^2)$
那我们把 $(2)$ 式也整理成这个形式：
$x_{t-s} = \sqrt{\alpha_{t-s}} * x_0 + \varepsilon'' \\ \varepsilon'' \sim N (0, 1-\alpha_{t-s})$
这样我们对比这两组式子，让二者 $x_0$ 前面的系数相同，同时高斯分布的均值和方向也相同，就可以得到两个等式：
$m*\sqrt{\alpha_t} + k = \sqrt{\alpha_{t-s}} \\ m^2 * (1-\alpha_t) + \sigma_t^2 = {1-\alpha_{t-s}}$
我们联立就可以解得：
$\frac{\sqrt{1-\alpha_{t-s}-\sigma^2}}{\sqrt{1-\alpha_t}}\\ k = \sqrt{\alpha_{t-s}} - \frac{\sqrt{1-\alpha_{t-s}-\sigma^2}}{\sqrt{1-\alpha_t}} \sqrt{\alpha_{t}}$
现在得到了 $m$ 和 $k$ ，我们的工作其实已经完成了，证明了 $q(x_{t-s}|x_t, x_0)$ 是一个 $\mu$ 是关于 $x_t$ 和 $x_0$ 的线性函数的高斯分布，并且还求得了这个分布的 $\mu$ 和 $\sigma$ ，下面只需要将它们带入，得到 $x_{t-s}$ 的表达式就可以了。

将 $m$ 和 $k$ 带入 $q(x_{t-s}|x_t, x_0)=N(\mu(x_t,x_0),\sigma_t^2I)$ 也就可以得到：
$q(x_{t-s}|x_t, x_0) \sim N((\sqrt{\alpha_{t-s}} - \frac{\sqrt{1-\alpha_{t-s}-\sigma^2}}{\sqrt{1-\alpha_t}} \sqrt{\alpha_{t}})*x_0 + (\frac{\sqrt{1-\alpha_{t-s}-\sigma^2}}{\sqrt{1-\alpha_t}})*x_t,\sigma_t^2I)$
展开，整理一下得到：
$q(x_{t-s}|x_t, x_0) \sim N(\sqrt{\alpha_{t-s}} *x_0 + \sqrt{1-\alpha_{t-s}-\sigma_t^2} \frac{x_t-\sqrt{\alpha_t}x_0}{\sqrt{1-\alpha_t}},\sigma_t^2I)$
这也就是最终求得的 $q(x_{t-s}|x_t, x_0)$ 在没有经过马尔可夫链的情况下，得到的关于 $x_t$ 和 $x_0$ 的表达式。

将它写成重参数采样的形式：
$x_{t-s} = \sqrt{\alpha_{t-s}} *x_0 + \sqrt{1-\alpha_{t-s}-\sigma_t^2} \frac{x_t-\sqrt{\alpha_t}x_0}{\sqrt{1-\alpha_t}} + \sigma_t \varepsilon \cdots \cdots (5)$
我们还可以继续，像DDPM一样，将由 $(1)$ 得到的关于 $x_0$ 和 $\varepsilon_t$ 关系式：
$x_0 = \frac{x_t - \sqrt{1-\alpha_t}\varepsilon_t}{\sqrt{\alpha_t}} \\ \varepsilon_t = \frac{x_t - \sqrt{\alpha_t}x_0}{\sqrt{1-\alpha_t}}$
代入 $(5)$ 式，得到：
$x_{t-s} = \sqrt{\alpha_{t-s}} *\frac{x_t - \sqrt{1-\alpha_t}\varepsilon_t}{\sqrt{\alpha_t}} + \sqrt{1-\alpha_{t-s}-\sigma_t^2} \varepsilon_t + \sigma_t \varepsilon$
大功告成！这样我们就可以得到一个只用 $x_t$ 、 $\varepsilon_t$ 和 $\sigma_t$ 来表示的 $x_{t-s}$ 。

和DDPM一样，在推理过程中，我们用训练好的noise preditor预测得到 $\varepsilon_t$ 。至于noise preditor的训练过程我们可以完全沿用DDPM的流程，甚至直接复用DDPM训练好的noise preditor。 $\sigma_t$ 是一个参数，我们可以随意设置。而 $s$ 可以取1到t的所有整数值，所以就可以从 $x_t$ 跳步求得 $s$ 步之前的结果了。

到此为止，DDIM的推理部分就已经讲完了，我们来对比一下DDPM和DDIM中 $x_{t-1}$ 的公式：
$DDPM:x_{t-1} = \frac{1}{\sqrt{\alpha_t}}(x_t- \frac{(1-\alpha_t)}{\sqrt{(1-\bar{\alpha}_t)}}\varepsilon_{t}) + \beta_t * \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} * \varepsilon \\ DDIM:x_{t-1} = \sqrt{\alpha_{t-1}} *\frac{x_t - \sqrt{1-\alpha_t}\varepsilon_t}{\sqrt{\alpha_t}} + \sqrt{1-\alpha_{t-s}-\sigma_t^2} \varepsilon_t + \sigma_t \varepsilon$
我们发现这两个公式长得不能说完全不一样，但确实是没多少相似的地方，所以DDIM其实是找到了一条新的可以从 $x_t$ 反推回 $x_{t-1}$ 甚至是 $x_{t-s}$ 的路径，找到了反向去噪过程一个新的解。

那这个新的解，会不会有一些DDPM没有的特点呢？

让随机性消失

回看两个公式的对比，我们可以看到一个特点，DDIM的 $\varepsilon$ 前面的系数明显更加简洁，而且它正好是我们之前说可以随机设置的参数 $\sigma_t$ 。可以随意设置，那我们不妨让 $\sigma_t=0$ ，于是见证奇迹的时刻：
$x_{t-1} = \sqrt{\alpha_{t-1}} *\frac{x_t - \sqrt{1-\alpha_t}\varepsilon_t}{\sqrt{\alpha_t}} + \sqrt{1-\alpha_{t-s}} \varepsilon_t$
$\varepsilon$ 消失了！

于是有读者现在就说了：这有什么的？那 $\sigma_t$ 是 $\varepsilon$ 前面的系数啊，你让它为0，那 $\varepsilon$ 自然会消失啊，这不是很正常嘛？

慢着，它的消失可能在你的意料之中，但是 $\varepsilon$ 的消失的意义可能在你的意料之外。 $\varepsilon$ 在DDPM中其实代表了每一次降噪过程，都需要在标准高斯分布中采集一个样本，DDPM采样1000次的那个”采样“二字，就是这么来的。这每一次采样，都给DDPM带来了随机性（因为你不知道采集的样本是什么样的），但是如果DDIM每一次反向降噪都不随机采样了呢？没错，那随机性就消失了。于是，神奇的事情发生了，DDIM的反向降噪成为了一个确定性的过程！

确定性采样：当描述DDIM的整体生成流程时，当设置 $\sigma_t=0$ 时虽然不具有随机性，但是仍可称为“采样”。因为“采样”一词已被广泛用于描述从噪声到数据的生成过程。对 $\sigma_t=0$ 时DDIM的采样过程，更严谨的表述是“确定性采样”，以区别于DDPM的随机性采样。

什么意思，就是只要给DDIM提供一个初始的标准高斯噪声 $x_t$ ，再提供一个预测出来的高斯噪声 $\varepsilon_t$ ，它就一定对应一个确定的 $x_0$ 。这是因为在整个生成过程中，没有加入任何其他随机量。但DDPM不是这样的，你提供的 $x_t$ 和 $\varepsilon_t$ 一样，每一次降噪由于都加入了从标准高斯分布中采样的 $\varepsilon$ ，DDPM生成的结果都是随机的。

这就会出现两个情况，第一，DDIM无论进行多少次降噪，结果都是相同的，如下图：

可以看到，在采样10次和100次的情况下，DDIM都对应了同一个结果（但是清晰度会不同，这个我们下一节再聊）。那么我们就可以利用DDIM这一个特性，在生成的时候先使用低采样步数看看是不是我们想要的结果，相当于预览，如果是，再用更多的采样步数得到更精细的结果。

第二，我们可以对 $x_t$ 进行插值，得到两个 $x_t$ 不同比例下的融合结果，如下图：

可以看到，中间的图片的样子是左右两幅图片不同程度的叠加。这并不是直接进行的叠加，而是在生成之前，将左右两幅图此前对应的高斯噪声 $x_t$ 按照比例进行融合，由于生成过程是确定性的，相当于每个 $x_t$ 都对应了一个确定的 $x_0$ （因为训练好的网络对于每个 $x_t$ 所预测的 $\varepsilon_t$ 也是一样的），所以生成的 $x_0$ 也是融合的。

跳步的问题

那讲了这么多，DDIM的跳步就是十全十美的吗？DDIM的T=10就是比T=1000全方位多快好省么？那也不是的，采样步数也是一分钱一分货，越多越准确的。其实读者也已经发现了，在上一节展示的图片中，10次采样的结果是不如100次采样的结果的。这是为什么呢？

想一想，DDIM在整个推导过程中，有没有什么漏洞？其实是有的，就是首先假设了 $q(x_{t-s}|x_t, x_0)$ 符合高斯分布。在本文的第一章《DDPM为什么要采样很多次》中，就已经写到，当采样次数少，使得不满足“当 $\beta$ 变化速率比较小”这个条件时，反向过程就无法保证为高斯分布。所以当T=100的时候，DDIM的反向过程的概率分布还可以近似为高斯分布，但是让T=10的时候，反向过程与高斯分布实在是难以近似，所以生成的图像也就会模糊了。