Denoising diffusion implicit models 阅读笔记2

冰冰冰泠泠泠

已于 2024-02-28 17:55:26 修改

阅读量923

点赞数 23

分类专栏：生成模型文章标签：笔记

于 2024-01-25 11:08:20 首次发布

本文链接：https://blog.csdn.net/icylling/article/details/135825004

版权

生成模型专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本，需要迭代多次，速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了在复用DDPM训练的网络的前提下，加速采样过程。
加速采样的基本思路是，原本的生成过程是从 $[T,\cdots,1]$ 的序列逐步采样，加速时考虑从子序列 $\{\tau_1, \dots, \tau_S\},\tau_1 > \tau_2 > \dots > \tau_S \in [1, T]$ 采样，通过跳步的方式减少采样的步数。比如DDPM网络原始训练包含1000步，但是采样时可以只从1000步中均匀的选出50步，用这50步采样出图像。
DDPM和DDIM都可以跳步采样，这个作者在实验中也进行了证明。DDIM的贡献主要是在复用DDPM训练的网络的前提下，提出了一种可以调节方差的生成形式，在步数较少的时候使用小的方差生成效果好。

DDIM论文中的符号和DDPM论文不同，本笔记中采用DDPM论文的符号。

引子

DDPM的优化目标是
$\begin{aligned} L_\text{VLB} &= \mathbb{E}_{q(\mathbf{x}_{0:T})} \Big[ \log\frac{q(\mathbf{x}_{1:T}\vert\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0:T})} \Big] \\ &= \mathbb{E}_q [\underbrace{D_\text{KL}(q(\mathbf{x}_T \vert \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_T))}_{L_T} + \sum_{t=2}^T \underbrace{D_\text{KL}(q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_{t-1} \vert\mathbf{x}_t))}_{L_{t-1}} \underbrace{- \log p_\theta(\mathbf{x}_0 \vert \mathbf{x}_1)}_{L_0} ] \end{aligned}$
其中 $L_{t-1}= \mathbb{E}_q [D_\text{KL}(q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_{t-1} \vert\mathbf{x}_t))]$ 是DDPM网络优化的目标项。
$q(\pmb{x}_{t-1}|\pmb{x}_{t},\pmb{x}_0)=\frac{q(\pmb{x}_{t-1}|\pmb{x}_0)q(\pmb{x}_t|\pmb{x}_{t-1},\pmb{x}_0)}{q(\pmb{x}_{t}|\pmb{x}_0)}$ 所以 $L_{t-1}$ 只和边际分布 $q(\pmb{x}_t|\pmb{x}_0)$ 有关，而不是联合分布 $q(\pmb{x}_{1:T}|\pmb{x}_0)$ 。所以，我们可以定义一个更为灵活的推理过程，只要它的边际分布 $q(\pmb{x}_t|\pmb{x}_0)$ 和DDPM一致，就可以复用DDPM优化的网络。

非马尔科夫的前向过程

DDPM中推理分布 $q(\mathbf x_{1:T}|\mathbf x_0)$ （推理分布是从可观测变量 $\mathbf x_0$ 推理隐变量 $\mathbf x_{1:T}$ 的分布）是固定的马尔科夫链（DDPM中要求 $q(\pmb{x}_t|\pmb{x}_{t-1},\pmb{x}_0) = q(\pmb{x}_t|\pmb{x}_{t-1}) := \mathcal{N}(\sqrt{1 - \beta_t}\pmb{x}_{t-1}, \beta_t \pmb{I})$ ）。现在放宽限制，不要求前向过程是马尔科夫的，也就是对 $q(\pmb{x}_t|\pmb{x}_{t-1})$ 不做形式要求。

作者定义由实向量 $\sigma \in \mathbb{R}^T_{\ge 0}$ 索引的推理分布族Q：
$\begin{split} q_\sigma (\pmb{x}_{1:T}|\pmb{x}_0) := q_\sigma(\pmb{x}_T|\pmb{x}_0)\prod_{t=2}^Tq_\sigma(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0) \end{split}$ 只要求满足边际分布和DDPM一样，即 $q_\sigma(\pmb{x}_t|\pmb{x}_0) = \mathcal{N}(\sqrt{\bar{\alpha}_t}\pmb{x}_0,(1-\bar{\alpha}_t)\pmb{I})$ 。
通过待定系数法（参考[1]）可以得到形式更自由的生成过程：
$q_\sigma(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0) := \mathcal{N}(\sqrt{\bar{\alpha}_{t-1}}\pmb{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1}-\sigma_t^2}\cdot \frac{\pmb{x}_t - \sqrt{\bar{\alpha}_t}\pmb{x}_0}{\sqrt{1 - \bar{\alpha}_t}},\sigma_t^2 \pmb{I})$
对应的前向过程也是高斯分布，但前向过程变成了非马尔科夫的，因为每一步都依赖 $\mathbf x_0$
$q_\sigma(\pmb{x}_t|\pmb{x}_{t-1}, \pmb{x}_0) = \frac{q_\sigma(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0)q_\sigma(\pmb{x}_t|\pmb{x}_0)}{q_\sigma(\pmb{x}_{t-1}|\pmb{x}_0)}$
如下图所示，DDPM的推理过程是非马尔科夫的。
在这里插入图片描述
注意，DDIM构造的推理分布和DDPM不同，但和DDPM优化相同的优化目标。

反向生成过程

根据上面的推理过程，定义需要学习的生成过程 $p_\theta(\mathbf{x}_{0:T})$ ，该过程利用 $q_\sigma(\pmb{x}_{t-1}|\pmb{x}_t,\pmb{x}_0)$ 。
直观地说，给定 $xt \pmb{x}_t$ ，我们首先预测对应的 $x0 \pmb{x}_0$ ，然后使用我们定义的反向条件分布 $q_\sigma(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0)$ 获得 $xt−1 \pmb{x}_{t-1}$ 。
预测对应的 $x0 \pmb{x}_0$ 如下：
$\hat{\pmb{x}}_0 = f_\theta^{(t)}(\pmb{x}_t) := \frac{\pmb{x}_t - \sqrt{1-\bar{\alpha}_t} \pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t)}{\sqrt{\bar{\alpha}_t}}$ 使用预测的 $\hat{\pmb{x}}_0$ 通过 $q_\sigma(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0)$ 获得 $xt−1 \pmb{x}_{t-1}$ 如下：
$\hat{\pmb{x}}_{t-1} = \sqrt{\bar{\alpha}_{t-1}}\hat{\pmb{x}}_0 + \sqrt{1- \bar{\alpha}_{t-1}-\sigma_t^2}\cdot \frac{\pmb{x}_t - \sqrt{\bar{\alpha}_t}\hat{\pmb{x}}_0}{\sqrt{1 - \bar{\alpha}_t}} + \sigma_t \pmb{z}, \pmb{z} \sim \mathcal{N}(\pmb{0}, \pmb{I})$ 写成使用 $\pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t)$ 的形式：
$\hat{\pmb{x}}_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \frac{\pmb{x}_t -\sqrt{1-\bar{\alpha}_t}\pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t)}{\sqrt{\bar{\alpha}_t}} + \sqrt{1- \bar{\alpha}_{t-1}-\sigma_t^2}\cdot \pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t) + \sigma_t \pmb{z}, \pmb{z} \sim \mathcal{N}(\pmb{0}, \pmb{I})$
选择不同的 $\sigma$ 值会导致不同的生成过程，但它们使用相同的 $\epsilon_{\theta}$ 模型。

DDPM和DDIM对比

$\begin{split} \text{DDPM}:\ &q(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0) = \mathcal{N}(\frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}\pmb{x}_0 + \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})}{1 -\bar{\alpha}_t}\pmb{x}_t, \frac{\beta_t(1-\bar{\alpha}_{t-1})}{(1-\bar{\alpha}_t)}\pmb{I})\\ \text{DDIM}:\ &q_\sigma(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0) := \mathcal{N}(\sqrt{\bar{\alpha}_{t-1}}\pmb{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1}-\sigma_t^2}\cdot \frac{\pmb{x}_t - \sqrt{\bar{\alpha}_t}\pmb{x}_0}{\sqrt{1 - \bar{\alpha}_t}},\sigma_t^2 \pmb{I}) \end{split}$ 当 $\sigma_t = \sqrt{(1-\bar\alpha_{t-1})/(1-\bar\alpha_{t})}\sqrt{(1-\bar\alpha_{t}/\bar\alpha_{t-1})} = \sqrt{\frac{\beta_t(1-\bar{\alpha}_{t-1})}{(1-\bar{\alpha}_t)}}$ 时，DDPM的 $q(\pmb{x}_{t-1}|\pmb{x}_t, \pmb{x}_0)$ 和DDIM的 $q_\sigma(\pmb{x}_{t-1}|\pmb{x}_t,\pmb{x}_0)$ 是一样的，生成过程变成和DDPM是一样的。另外，DDIM的前向过程变成了马尔科夫的。

当 $\sigma_t=0$ 时，随机噪声前的系数是0， $\mathbf x_0$ 和 $\mathbf x_T$ 之间的关系是固定的，这属于隐概率模型（implicit probabilistic model）。
这时生成过程的每一步变为 $\hat{\pmb{x}}_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \frac{\pmb{x}_t - \sqrt{1-\bar{\alpha}_t}\pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t)}{\sqrt{\bar{\alpha}_t}} + \sqrt{1- \bar{\alpha}_{t-1}}\cdot \pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t)\\ =\frac{1}{\sqrt{\alpha_{t}}}(\pmb{x}_t - (\sqrt{1-\bar{\alpha}_t} - \sqrt{\alpha_{t}}\sqrt{1-\bar{\alpha}_{t-1}}) \pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t))$ 对比DDPM生成过程的每一步
$\hat{\pmb{x}}_{t-1} = \frac{1}{\sqrt{\alpha_t}}(\pmb{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}}\pmb{\epsilon}_\theta^{(t)}(\pmb{x}_t)) + \sigma_t\pmb{z}$

[2]中给出了下面的分解：
$\begin{aligned} \mathbf{x}_{t-1} &= \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1}}\boldsymbol{\epsilon}_{t-1} \\ &= \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2} \boldsymbol{\epsilon}_t + \sigma_t\boldsymbol{\epsilon} \\ &= \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2} \frac{\mathbf{x}_t - \sqrt{\bar{\alpha}_t}\mathbf{x}_0}{\sqrt{1 - \bar{\alpha}_t}} + \sigma_t\boldsymbol{\epsilon} \end{aligned}$ 分解的依据是不相关高斯随机变量 $\mathcal{N}(\mathbf{0}, \sigma_1^2\mathbf{I})$ 和 $\mathcal{N}(\mathbf{0}, \sigma_2^2\mathbf{I})$ 之和的分布是 $\mathcal{N}(\mathbf{0}, (\sigma_1^2 + \sigma_2^2)\mathbf{I})$ 。

在DDPM的逆向生成过程的每一步中，也可以认为是先估计 $\hat{\pmb{x}}_0$ ，再求 $\hat{\pmb{x}}_{t-1}$ 。
DDIM与DDPM的主要区别是DDIM构造了一种更自由的过程，通过 $\sigma$ 改变了方差的大小，同时改变均值，使其依然符合DDPM的边际分布 $q(\pmb{x}_t|\pmb{x}_0)$ 。

参考资料

[1] https://kxz18.github.io/2022/06/21/DDIM/
[2] https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

冰冰冰泠泠泠

关注

23
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Denoising diffusion implicit models 阅读笔记2

Denoising diffusion probabilistic models (DDPMs)从马尔科夫链中采样生成样本，需要迭代多次，速度较慢。Denoising diffusion implicit models (DDIMs)的提出是为了在复用DDPM训练的网络的前提下，加速采样过程。加速采样的基本思路是，原本的生成过程是从T⋯1的序列逐步采样，加速时考虑从T⋯1的子序列采样，通过跳步的方式减少采样的步数。
复制链接

扫一扫

专栏目录