DDPM = 贝叶斯 + 去噪

最新推荐文章于 2024-08-16 11:09:35 发布

连理o

最新推荐文章于 2024-08-16 11:09:35 发布

阅读量644

点赞数 1

分类专栏： # Generative Models 文章标签： diffusion model

本文链接：https://blog.csdn.net/weixin_42437114/article/details/128306132

版权

Generative Models 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

请贝叶斯
去噪过程
预估修正
Random Sample - 方差选取
References

前面两篇文章给出了 DDPM 的两种推导，“DDPM = 拆楼 + 建楼” 更为直白易懂，但无法做更多的理论延伸和定量理解，“DDPM = 自回归式 VAE” 理论分析上更加完备一些，但稍显形式化，启发性不足。下面再分享 DDPM 的一种推导，它主要利用到了贝叶斯定理来简化计算，整个过程的 “推敲” 味道颇浓，很有启发性。不仅如此，它还跟 DDIM 模型有着紧密的联系

请贝叶斯

利用贝叶斯公式，理论上我们想要获得如下生成过程 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$ 的表示
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) = \frac{p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})p(\boldsymbol{x}_{t-1})}{p(\boldsymbol{x}_t)}$ 然而，我们并不知道 $p(\boldsymbol{x}_{t-1}),p(\boldsymbol{x}_t)$ , $p(\boldsymbol{x}_{t-1}),p(\boldsymbol{x}_t)$ 的表达式，所以此路不通。但我们可以退而求其次，在给定 $\boldsymbol{x}_0$ 的条件下使用贝叶斯定理：
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) = \frac{p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)}{p(\boldsymbol{x}_t|\boldsymbol{x}_0)}$ 其中 $p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})=\mathcal{N}(\boldsymbol{x}_t;\alpha_t \boldsymbol{x}_{t-1}, \beta_t^2 \boldsymbol{I})$ , $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_{t-1};\bar{\alpha}_{t-1} \boldsymbol{x}_0, \bar{\beta}_{t-1}^2 \boldsymbol{I})$ , $p(\boldsymbol{x}_{t}|\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_{t};\bar{\alpha}_{t} \boldsymbol{x}_0, \bar{\beta}_{t}^2 \boldsymbol{I})$ . 代入可得指数部分除掉 $- 1 / 2$ 因子外，结果是：
$\frac{\Vert \boldsymbol{x}_t - \alpha_t \boldsymbol{x}_{t-1}\Vert^2}{\beta_t^2} + \frac{\Vert \boldsymbol{x}_{t-1} - \bar{\alpha}_{t-1}\boldsymbol{x}_0\Vert^2}{\bar{\beta}_{t-1}^2} - \frac{\Vert \boldsymbol{x}_t - \bar{\alpha}_t \boldsymbol{x}_0\Vert^2}{\bar{\beta}_t^2}$ 它关于 $\boldsymbol{x}_{t-1}$ 是二次的，因此最终的分布必然也是正态分布，我们只需要求出其均值和协方差。不难看出，展开式中 $\Vert \boldsymbol{x}_{t-1}\Vert^2$ 项的系数是
$\frac{\alpha_t^2}{\beta_t^2} + \frac{1}{\bar{\beta}_{t-1}^2} = \frac{\alpha_t^2\bar{\beta}_{t-1}^2 + \beta_t^2}{\bar{\beta}_{t-1}^2 \beta_t^2} = \frac{\alpha_t^2(1-\bar{\alpha}_{t-1}^2) + \beta_t^2}{\bar{\beta}_{t-1}^2 \beta_t^2} = \frac{1-\bar{\alpha}_t^2}{\bar{\beta}_{t-1}^2 \beta_t^2} = \frac{\bar{\beta}_t^2}{\bar{\beta}_{t-1}^2 \beta_t^2}$ 所以整理好的结果必然是 $\frac{\bar{\beta}_t^2}{\bar{\beta}_{t-1}^2 \beta_t^2}\Vert \boldsymbol{x}_{t-1} - \tilde{\boldsymbol{\mu}}(\boldsymbol{x}_t, \boldsymbol{x}_0)\Vert^2$ 的形式 (协方差矩阵必然是对角矩阵。此外，由于二次项系数都相同，因此协方差矩阵必为单位矩阵的倍数)，这意味着协方差矩阵是 $\frac{\bar{\beta}_{t-1}^2 \beta_t^2}{\bar{\beta}_t^2}\boldsymbol{I}$ 。另一边，把一次项系数拿出来是 $-2\left(\frac{\alpha_t}{\beta_t^2}\boldsymbol{x}_t + \frac{\bar{\alpha}_{t-1}}{\bar{\beta}_{t-1}^2}\boldsymbol{x}_0 \right)$ ，除以 $\frac{-2\bar{\beta}_t^2}{\bar{\beta}_{t-1}^2 \beta_t^2}$ 后便可以得到
$\tilde{\boldsymbol{\mu}}(\boldsymbol{x}_t, \boldsymbol{x}_0)=\frac{\alpha_t\bar{\beta}_{t-1}^2}{\bar{\beta}_t^2}\boldsymbol{x}_t + \frac{\bar{\alpha}_{t-1}\beta_t^2}{\bar{\beta}_t^2}\boldsymbol{x}_0$ 最终得到下式，它可以借助原图像完成对当前图像的去噪：
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) = \mathcal{N}\left(\boldsymbol{x}_{t-1};\frac{\alpha_t\bar{\beta}_{t-1}^2}{\bar{\beta}_t^2}\boldsymbol{x}_t + \frac{\bar{\alpha}_{t-1}\beta_t^2}{\bar{\beta}_t^2}\boldsymbol{x}_0,\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2} \boldsymbol{I}\right)$

去噪过程

下面我们需要在不借助原图像 $\boldsymbol{x}_0$ 的前提下完成去噪。一个 “异想天开” 的想法是用 $\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)$ 来预估 $\boldsymbol{x}_0$ ，损失函数为 $\Vert \boldsymbol{x}_0 - \bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)\Vert^2$ ，这实际上在训练一个去噪模型，这也就是 DDPM 的第一个 “D” 的含义 (Denoising). 由于 $\boldsymbol{x}_0 = \frac{1}{\bar{\alpha}_t}\left(\boldsymbol{x}_t - \bar{\beta}_t \boldsymbol{\varepsilon}\right)$ ，因此将 $\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)$ 参数化为
$\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t) = \frac{1}{\bar{\alpha}_t}\left(\boldsymbol{x}_t - \bar{\beta}_t \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right)$ 此时损失函数变为
$\Vert \boldsymbol{x}_0 - \bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)\Vert^2 = \frac{\bar{\beta}_t^2}{\bar{\alpha}_t^2}\left\Vert\boldsymbol{\varepsilon} - \boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon}, t)\right\Vert^2$ 省去前面的系数，就得到 DDPM 原论文所用的损失函数了 (提示：出于推导的流畅性考虑，这里的 $\boldsymbol{\epsilon}_{\boldsymbol{\theta}}$ 跟前两个视角介绍不一样，反而跟 DDPM 原论文一致)。可以发现，这里是直接得出了从 $\boldsymbol{x}_t$ 到 $\boldsymbol{x}_0$ 的去噪过程，而不是像之前两个视角那样，通过 $\boldsymbol{x}_t$ 到 $\boldsymbol{x}_{t-1}$ 的去噪过程再加上积分变换来推导，相比之下这里的推导可谓更加一步到位了
训练完成后，我们就认为
$\begin{aligned} p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) &\approx p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0=\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)) \\&= \mathcal{N}\left(\boldsymbol{x}_{t-1}; \frac{\alpha_t\bar{\beta}_{t-1}^2}{\bar{\beta}_t^2}\boldsymbol{x}_t + \frac{\bar{\alpha}_{t-1}\beta_t^2}{\bar{\beta}_t^2}\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t),\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2} \boldsymbol{I}\right) \\&= \mathcal{N}\left(\boldsymbol{x}_{t-1}; \frac{1}{\alpha_t}\left(\boldsymbol{x}_t - \frac{\beta_t^2}{\bar{\beta}_t}\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\right),\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2} \boldsymbol{I}\right) \end{aligned}$ 这就是反向的采样过程所用的分布，连同采样过程所用的方差也一并确定下来了

预估修正

不知道读者有没有留意到一个有趣的地方：我们要做的事情，就是想将 $\boldsymbol{x}_T$ 慢慢地变为 $\boldsymbol{x}_0$ ，而我们在借用 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0)$ 近似 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$ 时，却包含了 “用 $\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)$ 来预估 $\boldsymbol{x}_0$ ” 这一步，要是能预估准的话，那就直接一步到位了，还需要逐步采样吗？
真实情况是，“用 $\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)$ 来预估 $\boldsymbol{x}_0$ ” 当然不会太准的，至少开始的相当多步内不会太准。它仅仅起到了一个前瞻性的预估作用，然后我们只用 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$ 来推进一小步，这就是很多数值算法中的 “预估-修正” 思想，即我们用一个粗糙的解往前推很多步，然后利用这个粗糙的结果将最终结果推进一小步，以此来逐步获得更为精细的解

Random Sample - 方差选取

(1) 假设整个数据集只有一个样本，不失一般性，假设该样本为 $\boldsymbol{0}$ ，此时 $\tilde{p}(\boldsymbol{x}_0)$ 为狄拉克分布 $\delta(\boldsymbol{x}_0)$ ，可以直接算出 $p(\boldsymbol{x}_t)=p(\boldsymbol{x}_t|\boldsymbol{0})$ 。代入下式
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) = \mathcal{N}\left(\boldsymbol{x}_{t-1};\frac{\alpha_t\bar{\beta}_{t-1}^2}{\bar{\beta}_t^2}\boldsymbol{x}_t + \frac{\bar{\alpha}_{t-1}\beta_t^2}{\bar{\beta}_t^2}\boldsymbol{x}_0,\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2} \boldsymbol{I}\right)$ 有
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) = p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0=\boldsymbol{0}) = \mathcal{N}\left(\boldsymbol{x}_{t-1};\frac{\alpha_t\bar{\beta}_{t-1}^2}{\bar{\beta}_t^2}\boldsymbol{x}_t,\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2} \boldsymbol{I}\right)$ 我们主要关心其方差为 $\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2}$ ，这便是采样方差的选择之一
(2) 假设数据集服从标准正态分布，即 $\tilde{p}(\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_0;\boldsymbol{0},\boldsymbol{I})$ 。由于 $\boldsymbol{x}_t = \bar{\alpha}_t \boldsymbol{x}_0 + \bar{\beta}_t \boldsymbol{\varepsilon},\boldsymbol{\varepsilon}\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ ， $\boldsymbol{x}_0\sim\mathcal{N}(\boldsymbol{0}, \boldsymbol{I})$ ，所以由正态分布的叠加性， $\boldsymbol{x}_t$ 正好也服从标准正态分布。现在有 $p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})=\mathcal{N}(\boldsymbol{x}_t;\alpha_t \boldsymbol{x}_{t-1}, \beta_t^2 \boldsymbol{I})$ , $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_{t-1};0, \boldsymbol{I})$ , $p(\boldsymbol{x}_{t}|\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_{t};0, \boldsymbol{I})$ . 将标准正态分布的概率密度代入 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t, \boldsymbol{x}_0) = \frac{p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)}{p(\boldsymbol{x}_t|\boldsymbol{x}_0)}$ , 结果的指数部分除掉 $- 1 / 2$ 因子外，结果是：
$\frac{\Vert \boldsymbol{x}_t - \alpha_t \boldsymbol{x}_{t-1}\Vert^2}{\beta_t^2} + \Vert \boldsymbol{x}_{t-1}\Vert^2 - \Vert \boldsymbol{x}_t\Vert^2$ 跟推导 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)$ 的过程类似，可以得到上述指数对应于
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) = \mathcal{N}\left(\boldsymbol{x}_{t-1};\alpha_t\boldsymbol{x}_t,\beta_t^2 \boldsymbol{I}\right)$ 我们同样主要关心其方差为 $\beta_t^2$ ，这便是采样方差的另一个选择