从贝叶斯公式理解扩散概率模型

最新推荐文章于 2024-07-05 18:00:22 发布

nappingman

最新推荐文章于 2024-07-05 18:00:22 发布

阅读量433

点赞数 2

文章标签：计算机视觉

本文链接：https://blog.csdn.net/nappingman/article/details/127818044

版权

快速理解扩散概率模型

注意：本文从贝叶斯公式出发理解去噪过程的原理，本文公式推导并不完全，跳过了一些繁琐运算的过程，但足够理解扩散模型的两个过程在做些什么，深入理解数学原理可以看看https://kexue.fm/archives/9119系列博客。

本文内容主要来自：

若有错误，望看官及时指正！

Overview

图片截自DDPM论文

Process

正向加噪

从一张真实干净的 $x_0$ 逐步加噪到 $x_T$ ，每一步所加入的噪声比重越来越大，直至图像成为完全的高斯噪声。

整个过程是满足马尔可夫链性质（memoryless）， $x_t$ 只与 $x_{t-1}$ 有关（ $\in [0, T-1]$ ， $T$ 为设定的总扩散步数）：
$x_t = \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}\epsilon_t$
记 $\beta_t=1-\alpha_t$ ，这些都是根据 $T$ 预设好的常数， $x_0\rightarrow x_T$ 加噪过程中，噪声系数开始较小，后来越来越大。
根据上式，可以进行递推：
$x_t=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon_t$
$=\sqrt{\alpha_t}x_{t-1}+\sqrt{\beta_t}\epsilon_t$
$=\sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{\beta_{t-1}}\epsilon_{t-1})+\sqrt{\beta_{t}}\epsilon_t$
$=\sqrt{\prod_{k=1}^{t}{\alpha_k}}x_0+\sqrt{\beta_1}\epsilon_1\prod_{k=2}^{t}\sqrt{\alpha_{k}}+\sqrt{\beta_2}\epsilon_2\prod_{k=3}^{t}\sqrt{\alpha_{k}}+...+\sqrt{\beta_{t-1}}\epsilon_{t-1}\prod_{k=t}^{t}\sqrt{\alpha_{k}}+\sqrt{\beta_{t}}\epsilon_t$
其中，每次加入的噪声 $\epsilon_t$ 都是服从标准正态分布 $\mathcal N(0,1)$ ，所以上式中带有噪声的每一项都可写成均值为0，标准差不同的正态分布：
$\mathcal{N}(0, \sqrt{\beta_{?-1}}\prod_{k=?}^{t}\sqrt{\alpha_k}I)$
累乘 $\prod_{k}^t x$ 用 $\bar x_k$ 代替表示；
多个正态分布相加或减，方差体现为相加：
$x_t=\sqrt{\bar{\alpha}_t}x_0+\mathcal{N}(0, \sqrt{\bar{\alpha}_{2}\beta_1})+\mathcal{N}(0, \sqrt{\bar{\alpha}_{3}\beta_2})+\mathcal{N}(0, \sqrt{\bar{\alpha}_{4}\beta_3})+...+\mathcal{N}(0, \sqrt{{\alpha}_{t}\beta_{t-1}})+\mathcal{N}(0, \sqrt{\beta_t})$
带入 $\beta_t=1-\alpha_t$ ，得到：
$x_t = \sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon_t$
$=\mathcal{N}(\sqrt{\bar{\alpha}_t}x_0,1-\bar{\alpha}_t)$
所以通过正向过程，我们得到了任意时刻图像 $x_t$ 关于原始图像 $x_0$ 的表达式，其中 $\sqrt{\bar{\alpha}_t}$ 和 $\bar{\alpha}_t$ 均为常数。

逆向去噪

我们的目标是从 $x_T$ 得到一张尽可能真实的图像 $x_0$ ，但也不能一蹴而就，需要一步一步从 $x_t\rightarrow x_{t-1}$ ，由贝叶斯公式可得：
$p(x_{t-1}|x_t) = p(x_t|x_{t-1})\frac{p(x_{t-1})}{p(x_t)}$
发现如果不给定 $x_0$ ， $x_t, x_{t-1}$ 这些都没有意义，无法计算，由于马尔科夫链的性质，我们可以加上条件 $x_0$ ：
$p(x_{t-1}|x_t,x_0) = p(x_t|x_{t-1},x_0)\frac{p(x_{t-1}|x_0)}{p(x_t|x_0)}$
由正向加噪过程得到的公式，我们可将等式右边的三项均表示成正态分布的形式：
$p(x_{t-1}|x_t)=\mathcal{N}(\sqrt{\alpha_t}x_{t-1},1-\alpha_t)$
$p(x_{t-1}|x_0)=\mathcal{N}(x_{t-1};\sqrt{\bar{\alpha}_{t-1}}x_0,1-\bar{\alpha}_{t-1})$
$p(x_{t}|x_0)=\mathcal{N}(x_{t};\sqrt{\bar{\alpha}_{t}}x_0,1-\bar{\alpha}_{t})$
这样一来呢，根据正态分布的计算式：
$\mathcal{N}(\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
我们把等式右边的正态分布都替换成上面的形式，经过一段复杂的计算后，将贝叶斯等式右边的三项进行化简并通过配方表示成正态分布的形式：
$p(x_{t-1}|x_t,x_0) \propto e^{-\frac{1}{2}[(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\bar{\alpha}_{t-1}})x_{t-1}^2-(\frac{2\sqrt{\alpha_t}}{\beta_t}x_t+\frac{2\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}}x_0)x_{t-1}+C(x_t, x_0)]}$
从而上述分布的均值可表示成：
$\tilde\mu_t(x_t,x_0)=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t + \frac{\sqrt{\bar\alpha_{t-1}}\beta_t}{1-\bar\alpha_t}x_0$
可以看到，正态分布 $p(x_{t-1}|x_t,x_0)$ 的均值 $\tilde\mu_t$ 只与 $x_t, x_0$ 有关，但我们所求的就是 $x_0$ ，所以显然 $x_0$ 无法使用，这里用到了预估-修正的思想，通过正向过程得到的 $x_t$ 关于 $x_0$ 的表达式得到 $x_0$ 的表达式：
$x_0=\frac{x_t-\sqrt{1-\bar{\alpha}_t\epsilon_t}}{\sqrt{\bar{\alpha}_t}}$
带入可得到均值：
$\tilde\mu_t=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\epsilon_t)$

所以此时唯一未知量便是此时刻的噪声 $\epsilon_t$ ，扩散模型做的就是这个事情，通过一个UNet结构模型来得到每个时刻的噪声预测值 $\tilde\epsilon_t$ 。

方差在很多我看的几篇工作中都是设为固定值（具体原理没有深入看），所以只要能够预测出此时噪声 $\tilde\epsilon_t$ ，我们便得到了所求的分布 $p(x_{t-1}|x_t,x_0)$ 的均值，也便能够实现逐步 $x_t\rightarrow x_{t-1}$ 逆推过程。

训练&推理

训练过程是包括正向加噪和反向去噪的，在正向过程中加入的噪声 $\epsilon_t$ 将作为真实值，与反向过程的预测值 $\hat\epsilon_t$ 进行损失计算；

推理过程就不涉及正向过程了，直接从噪声开始去噪。