DDPM = 拆楼 + 建楼

最新推荐文章于 2023-03-05 17:13:40 发布

连理o

最新推荐文章于 2023-03-05 17:13:40 发布

阅读量563

点赞数 1

分类专栏： # Generative Models 文章标签： diffusion model

本文链接：https://blog.csdn.net/weixin_42437114/article/details/128306061

版权

Generative Models 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

拆楼 (加噪)
建楼 (生成)
降低方差
递归生成
超参设置
References

下面将从 “拆楼-建楼” 的通俗类比中介绍生成扩散模型 DDPM，在这个视角中，我们可以通过较为 “大白话” 的描述以及比较少的数学推导，来得到跟原始论文一模一样的结果。总的来说，下文说明了 DDPM 也可以像 GAN 一样找到一个形象类比，它既可以不用到 VAE 中的 “变分”，也可以不用到 GAN 中的 “概率散度”、“最优传输”，从这个意义上来看，DDPM 甚至算得上比 VAE、GAN 还要简单

拆楼 (加噪)

拆楼：通过 $T$ 步加噪，由样本数据 $\boldsymbol x$ (高楼) 得到随机噪声 $\boldsymbol z$ (原料)
$\boldsymbol{x} = \boldsymbol{x}_0 \to \boldsymbol{x}_1 \to \boldsymbol{x}_2 \to \cdots \to \boldsymbol{x}_{T-1} \to \boldsymbol{x}_T = \boldsymbol{z}$
该怎么拆：
$\boldsymbol{x}_t = \alpha_t \boldsymbol{x}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t,\quad \boldsymbol{\varepsilon}_t\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ 其中有 $\alpha_t,\beta_t > 0$ 且 $\boldsymbol {\alpha_t^2 + \beta_t^2=1}$ (注意到，当 ${\alpha_t^2 + \beta_t^2=1}$ 时，假如 $\boldsymbol{x}_{t-1}\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ ，则有 $\boldsymbol{x}_{t}\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ . 这可能是施加这一约束的直观原因). $\beta_t$ 通常很接近于 0. 反复执行这个拆楼的步骤，我们可以得到：
$\begin{aligned} \boldsymbol{x}_t =&\, \alpha_t \boldsymbol{x}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t \\ =&\, \alpha_t \big(\alpha_{t-1} \boldsymbol{x}_{t-2} + \beta_{t-1} \boldsymbol{\varepsilon}_{t-1}\big) + \beta_t \boldsymbol{\varepsilon}_t \\ =&\,\cdots\\ =&\,(\alpha_t\cdots\alpha_1) \boldsymbol{x}_0 + \underbrace{(\alpha_t\cdots\alpha_2)\beta_1 \boldsymbol{\varepsilon}_1 + (\alpha_t\cdots\alpha_3)\beta_2 \boldsymbol{\varepsilon}_2 + \cdots + \alpha_t\beta_{t-1} \boldsymbol{\varepsilon}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t}_{\text{多个相互独立的正态噪声之和}} \end{aligned}$ 式中花括号所指出的部分，正好是多个独立的正态噪声之和，其均值为 0，方差则分别为 $(\alpha_t\cdots\alpha_2)^2\beta_1^2 + (\alpha_t\cdots\alpha_3)^2\beta_2^2 + \cdots + \alpha_t^2\beta_{t-1}^2 + \beta_t^2$ . 由于 $\alpha_t^2 + \beta_t^2=1$ ，由数学归纳法可以很容易得到
$(\alpha_t\cdots\alpha_1)^2 + (\alpha_t\cdots\alpha_2)^2\beta_1^2 + (\alpha_t\cdots\alpha_3)^2\beta_2^2 + \cdots + \alpha_t^2\beta_{t-1}^2 + \beta_t^2 = 1$ 也就是说， $t$ 步加噪其实就相当于如下式所示的单步加噪：
$\boldsymbol{x}_t = \underbrace{(\alpha_t\cdots\alpha_1)}_{\text{记为}\bar{\alpha}_t} \boldsymbol{x}_0 + \underbrace{\sqrt{1 - (\alpha_t\cdots\alpha_1)^2}}_{\text{记为}\bar{\beta}_t} \bar{\boldsymbol{\varepsilon}}_t,\quad \bar{\boldsymbol{\varepsilon}}_t\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ 这就为计算 $\boldsymbol{x}_t$ 提供了极大的便利。另一方面，DDPM 会选择适当的 $α_t$ 形式，使得 $\bar{\alpha}_T\approx 0$ ，这意味着经过 $T$ 步的拆楼后，所剩的楼体几乎可以忽略了，已经全部转化为原材料 $\boldsymbol{\varepsilon}$

建楼 (生成)

建楼时，只需根据拆楼公式 $\boldsymbol{x}_{t-1}\to \boldsymbol{x}_t$ 构建如下的建楼公式 $\boldsymbol{\mu}(\boldsymbol{x}_t)$ : $\boldsymbol{x}_t\to \boldsymbol{x}_{t-1}$ ：
$\boldsymbol{\mu}(\boldsymbol{x}_t) = \frac{1}{\alpha_t}\left(\boldsymbol{x}_t - \beta_t \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right)$ 其中 $\boldsymbol{\mu}(\boldsymbol{x}_t)$ 即为我们想要的生成模型，同时通过这种参数化的表达还显式地引入了残差结构。可以看到，该生成模型主要就是对 $t$ ( $1\leq t\leq T$ ) 步的噪声 $\boldsymbol\varepsilon_t$ 进行建模。注意到 $\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)$ 中，我们在输入中显式地写出了 $t$ ，这是因为原则上不同的 $t$ 处理的是不同层次的对象，所以应该用不同的重构模型，即应该有 $T$ 个不同的重构模型才对，于是我们共享了所有重构模型的参数，将 $t$ 作为条件传入。按照论文附录的说法， $t$ 是转换成 Transformer 升级之路：1、Sinusoidal 位置编码追根溯源介绍的位置编码后，直接加到残差模块上去的
训练时的损失函数为
$\left\Vert\boldsymbol{x}_{t-1} - \boldsymbol{\mu}(\boldsymbol{x}_t)\right\Vert^2 = \frac{\beta_t^2}{\alpha_t^2}\left\Vert \boldsymbol{\varepsilon}_t - \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right\Vert^2$ 其中 $\frac{\beta_t^2}{\alpha_t^2}$ 代表 loss 的权重，可以暂时忽略。也就是说，我们只需随机采样一个时间步 $t$ 以及对应的 $\boldsymbol x_t$ 和 $\boldsymbol\varepsilon _t$ ，就可以计算损失函数，进而优化生成模型
正常来说采样 $\boldsymbol x_t$ 需要进行 $t$ 步加噪，即采样 $t$ 个噪声，我们可以将 $t$ 步加噪等价地表示为单步加噪的形式：
$\begin{aligned}\boldsymbol{x}_t &= \alpha_t\boldsymbol{x}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t \\&= \alpha_t\left(\bar{\alpha}_{t-1}\boldsymbol{x}_0 + \bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1}\right) + \beta_t \boldsymbol{\varepsilon}_t \\&= \bar{\alpha}_t\boldsymbol{x}_0 + \alpha_t\bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t \end{aligned}$ 注意到，这里不直接写为 $\boldsymbol{x}_t=\bar{\alpha}_{t}\boldsymbol{x}_0 + \bar{\beta}_{t}\bar{\boldsymbol{\varepsilon}}_{t}$ 是因为我们已经事先采样了 $\boldsymbol{\varepsilon}_t$ ，而 $\boldsymbol{\varepsilon}_t$ 跟 $\bar\boldsymbol{\varepsilon}_t$ 不是相互独立的，所以给定 $\boldsymbol{\varepsilon}_t$ 的情况下，我们不能完全独立地采样 $\bar \boldsymbol{\varepsilon}_t$ .
由此得到如下的损失函数
$\left\Vert \boldsymbol{\varepsilon}_t - \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t\boldsymbol{x}_0 + \alpha_t\bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t, t)\right\Vert^2$ 在计算上述损失函数时，我们需要采样 4 个随机变量：
- (1) 从所有训练样本中采样一个 $\boldsymbol{x}_0$
- (2) (3) 从正态分布 $\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ 中采样 $\bar{\boldsymbol{\varepsilon}}_{t-1}, \boldsymbol{\varepsilon}_t$
- (4) 从 $1 \sim T$ 中采样一个 $t$

降低方差

理论上，现在利用上述损失函数就能完成 DDPM 的训练，但它在实践中可能有方差过大的风险，从而导致收敛过慢等问题。这是因为计算上述损失函数需要采样 4 个随机变量，要采样的随机变量越多，就越难对损失函数做准确的估计，反过来说就是每次对损失函数进行估计的波动 (方差) 过大了
很幸运的是，我们可以通过一个积分技巧来将 $\bar{\boldsymbol{\varepsilon}}_{t-1}, \boldsymbol{\varepsilon}_t$ 合并成单个正态随机变量，从而缓解一下方差大的问题

将 $\bar{\boldsymbol{\varepsilon}}_{t-1}, \boldsymbol{\varepsilon}_t$ 合并成单个正态随机变量

由于正态分布的叠加性，我们知道
$\alpha_t\bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t\Leftrightarrow \bar{\beta}_t\boldsymbol{\varepsilon}|\boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})\\ \beta_t \bar{\boldsymbol{\varepsilon}}_{t-1} - \alpha_t\bar{\beta}_{t-1} \boldsymbol{\varepsilon}_t\Leftrightarrow \bar{\beta}_t\boldsymbol{\omega}|\boldsymbol{\omega}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ (证明: $(\alpha_t\bar{\beta}_{t-1})^2 + \beta_t^2=\alpha_t^2(1-\bar\alpha_{t-1}^2)+\beta_t^2=1-\bar\alpha_{t}^2=\bar\beta_{t}^2$ ). 此外可以验证 $\mathbb{E}[\boldsymbol{\varepsilon}\boldsymbol{\omega}^{\top}]=\boldsymbol{0}$ ，所以 $\boldsymbol{\varepsilon},\boldsymbol{\omega}$ 是两个相互独立的正态随机变量. (证明: $\mathbb{E}[\bar{\beta}_t\bar{\beta}_t\boldsymbol{\varepsilon}\boldsymbol{\omega}^{\top}] = \mathbb{E}[(\alpha_t\bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t)(\beta_t \bar{\boldsymbol{\varepsilon}}_{t-1} - \alpha_t\bar{\beta}_{t-1} \boldsymbol{\varepsilon}_t)^{\top}]$ 且 ${\boldsymbol{\varepsilon}}_{t}$ 和 $\bar{\boldsymbol{\varepsilon}}_{t-1}$ 为相互独立的标准正态随机变量)
接下来，我们反过来将 $\boldsymbol{\varepsilon}_t$ 用 $\boldsymbol{\varepsilon},\boldsymbol{\omega}$ 重新表示出来
$\left\{\begin{aligned} \alpha_t\bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t = \bar{\beta}_t\boldsymbol{\varepsilon}\\ \beta_t \bar{\boldsymbol{\varepsilon}}_{t-1} - \alpha_t\bar{\beta}_{t-1} \boldsymbol{\varepsilon}_t = \bar{\beta}_t\boldsymbol{\omega} \end{aligned}\right.$ 消掉 $\bar{\boldsymbol{\varepsilon}}_{t-1}$ 后可得
$\boldsymbol{\varepsilon}_t = \frac{(\beta_t \boldsymbol{\varepsilon} - \alpha_t\bar{\beta}_{t-1} \boldsymbol{\omega})\bar{\beta}_t}{\beta_t^2 + \alpha_t^2\bar{\beta}_{t-1}^2} = \frac{\beta_t \boldsymbol{\varepsilon} - \alpha_t\bar{\beta}_{t-1} \boldsymbol{\omega}}{\bar{\beta}_t}$ 将上式代入损失函数可得
$\begin{aligned} &\,\mathbb{E}_{\bar{\boldsymbol{\varepsilon}}_{t-1}, \boldsymbol{\varepsilon}_t\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})}\left[\left\Vert \boldsymbol{\varepsilon}_t - \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t\boldsymbol{x}_0 + \alpha_t\bar{\beta}_{t-1}\bar{\boldsymbol{\varepsilon}}_{t-1} + \beta_t \boldsymbol{\varepsilon}_t, t)\right\Vert^2\right] \\ =&\,\mathbb{E}_{\boldsymbol{\omega}, \boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})}\left[\left\Vert \frac{\beta_t \boldsymbol{\varepsilon} - \alpha_t\bar{\beta}_{t-1} \boldsymbol{\omega}}{\bar{\beta}_t} - \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t\boldsymbol{x}_0 + \bar{\beta}_t\boldsymbol{\varepsilon}, t)\right\Vert^2\right] \\ =&\frac{\beta_t^2}{\bar\beta_t^2}\,\mathbb{E}_{\boldsymbol{\omega}, \boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})}\left[\left\| \boldsymbol{\varepsilon} -\frac{\bar\beta_t}{\beta_t} \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t\boldsymbol{x}_0 + \bar{\beta}_t\boldsymbol{\varepsilon}, t)- \frac{\alpha_t\bar{\beta}_{t-1} \boldsymbol{\omega}}{{\beta}_t}\right\Vert^2\right] \end{aligned}$ 由于 $\mathbb{E}_{\boldsymbol{\omega}, \boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})}[\boldsymbol{\omega}^\top\boldsymbol{\omega}]=d$ ( $d$ 为噪声维度)， $\mathbb{E}_{\boldsymbol{\omega}, \boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})}[\boldsymbol{\varepsilon}^\top\boldsymbol{\omega}]=0$ ， $\mathbb{E}_{\boldsymbol{\omega}, \boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})}[\boldsymbol{\epsilon}^\top_{\boldsymbol{\theta}}(\bar{\alpha}_t\boldsymbol{x}_0 + \bar{\beta}_t\boldsymbol{\varepsilon}, t)\boldsymbol{\omega}]=0$ ，因此上述损失函数其实可以写为
$\frac{\beta_t^2}{\bar{\beta}_t^2}\mathbb{E}_{\boldsymbol{\varepsilon}\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I})}\left[\left\Vert\boldsymbol{\varepsilon} - \frac{\bar{\beta}_t}{\beta_t}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t\boldsymbol{x}_0 + \bar{\beta}_t\boldsymbol{\varepsilon}, t)\right\Vert^2\right]+\text{常数}$ 再次省掉常数和损失函数的权重，我们得到 DDPM 最终所用的损失函数：
$\left\Vert\boldsymbol{\varepsilon} - \frac{\bar{\beta}_t}{\beta_t}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t\boldsymbol{x}_0 + \bar{\beta}_t\boldsymbol{\varepsilon}, t)\right\Vert^2$ 训练时只需采样 $t$ , $\boldsymbol{x}_0$ , $\boldsymbol{\epsilon}$ 即可 (提示：原论文中的 $\boldsymbol{\epsilon}_{\boldsymbol{\theta}}$ 实际上就是这里的 $\frac{\bar{\beta}_t}{\beta_t}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}$ ，所以大家的结果是完全一样的)

递归生成

训练完之后，我们就可以从一个随机噪声 $\boldsymbol{x}_T\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ 出发执行 $T$ 步下式来进行生成
$\boldsymbol{x}_{t-1} = \frac{1}{\alpha_t}\left(\boldsymbol{x}_t - \beta_t \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right)$ 这对应于自回归解码中的 Greedy Search。如果要进行 Random Sample，那么需要补上噪声项：
$\boldsymbol{x}_{t-1} = \frac{1}{\alpha_t}\left(\boldsymbol{x}_t - \beta_t \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right) + \sigma_t \boldsymbol{z},\quad \boldsymbol{z}\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ 一般来说，我们可以让 $\sigma_t=\beta_t$ ，即正向和反向的方差保持同步 (这点在 “Random Sample - 方差选取” 一节中解释)
从这个生成过程中，我们也可以感觉到它其实跟 Seq2Seq 的解码过程是一样的，都是串联式的自回归生成，所以生成速度是一个瓶颈，DDPM 设了 $T = 1000$ ，意味着每生成一个图片，需要将 $\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)$ 反复执行 1000 次，因此 DDPM 的一大缺点就是采样速度慢，后面有很多工作都致力于提升 DDPM 的采样速度

超参设置

在 DDPM 中， $T = 1000$ ，可能比很多读者的想象数值要大，那为什么要设置这么大的 $T$ 呢？
$\alpha_t$ 是一个单调递减的函数
$\alpha_t = \sqrt{1 - \frac{0.02t}{T}}$ 那为什么要选择单调递减的 $\alpha_t$ 呢？

其实这两个问题有着相近的答案，跟具体的数据背景有关。简单起见，在重构的时候我们用了欧氏距离作为损失函数，而一般我们用 DDPM 做图片生成，以往做过图片生成的读者都知道，欧氏距离并不是图片真实程度的一个好的度量，VAE 用欧氏距离来重构时，往往会得到模糊的结果，除非是输入输出的两张图片非常接近，用欧氏距离才能得到比较清晰的结果 (这是因为同一个噪声可能对应多张图像，如果使用欧氏距离，就会使得噪声生成结果和多张图像都有一点相似，多张图像叠加在一起就会使得生成图像比较模糊)
选择尽可能大的 $T$ ，正是为了使得输入输出尽可能相近，减少欧氏距离带来的模糊问题
选择单调递减的 $α_t$ 也有类似考虑。当 $t$ 比较小时， $\boldsymbol{x}_t$ 还比较接近真实图片，所以我们要缩小 $\boldsymbol{x}_{t-1}$ 与 $\boldsymbol{x}_t$ 的差距，以便更适用欧氏距离，因此要用较大的 $α_t$ ；当 $t$ 比较大时， $\boldsymbol{x}_t$ 已经比较接近纯噪声了，噪声用欧式距离无妨，所以可以稍微增大 $\boldsymbol{x}_{t-1}$ 与 $\boldsymbol{x}_t$ 的差距，即可以用较小的 $α_t$ . 那么可不可以一直用较大的 $α_t$ 呢？可以是可以，但是要增大 $T$ 。这是因为我们想要使得 $\bar\alpha_T\approx0$ ，而我们可以直接估算
$\log \bar{\alpha}_T = \sum_{t=1}^T \log\alpha_t = \frac{1}{2} \sum_{t=1}^T \log\left(1 - \frac{0.02t}{T}\right) < \frac{1}{2} \sum_{t=1}^T \left(- \frac{0.02t}{T}\right) = -0.005(T+1)$ 代入 $T = 1000$ 大致是 $\bar{\alpha}_T\approx e^{-5}$ ，这个其实就刚好达到 $\approx 0$ 的标准。所以如果从头到尾都用较大的 $α_t$ ，那么必然要更大的 $T$ 才能使得 $\bar{\alpha}_T\approx 0$ 了