diffusion公式推导

OoooWi

已于 2023-10-13 12:25:48 修改

阅读量421

点赞数

文章标签：概率论线性代数

于 2023-10-12 15:09:18 首次发布

本文链接：https://blog.csdn.net/karl_wayne/article/details/133790245

版权

手推diffusion

参考链接：https://zhuanlan.zhihu.com/p/525106459
看了大佬的推导过程后自己推了一遍，捋出了一个大概的推导逻辑，并将一些复杂的问题隐藏在整个逻辑后面，思路相对来说比较简单。

整体下来其实学过概率论就能看懂，一些数学符号在一般概率论中没见过的话可以查查。

比如 $\mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I})$ ，前面的 $x_t$ 其实就是指服从后面均值方差参数的随机变量。即表达为： $x_t \sim \mathcal{N}(\sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I})$
还有就是后面的 $\mathbf{I}$ 也就是单位阵，因为 $x_t$ 是一个多维随机变量。

注：下面的 $q_{(x_{t-1}|x_t)}$ 其实本质上来说就是论文中的 $p_{(x_{t-1}|x_t)}$ 。

在这里插入图片描述

forward processing / 加噪过程

预设的加噪分布
$q_{(x_t|x_{t-1})} = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I}) \qquad (1)$

$q_{(x_{1:T}|x_0)} = \prod_{t=1}^{T} q_{(x_t|x_{t-1})} \qquad (2)$

推理过程

现在我们知道了如何加噪，那么该如何做去噪呢？

既然知道了 $q_{(x_t|x_{t-1})}$ , 就可以用贝叶斯公式求出 $q_{(x_{t-1}|x_t)}$ 这个逆向的从 $x_t$ 到 $x_{t-1}$ 的分布。不就能实现去噪了吗？

好，开始推！

$\begin{aligned} q_{(x_{t-1}|x_t)} &= \frac{q_{(x_{t-1}, x_t)}} {q_{(x_t)}} \\ &= q_{(x_t|x_{t-1})} \frac{q_{(x_{t-1})}} {q_{(x_t)}} \\ &= q_{(x_t|x_{t-1},x_0)} \frac{q_{(x_{t-1}|x_0)}} {q_{(x_t|x_0})} \qquad (3) \\ \end{aligned}$

设 $\alpha_t = 1 - \beta_t$

这三项中,

$q_{(x_t|x_{t-1},x_0)}$ 是已知的，由等式 (1) 可知
$\begin{aligned} q_{(x_t|x_{t-1},x_0)} &\propto \exp(-\frac{1}{2} \times \frac{(x_t-\sqrt{1-\beta_t}x_{t-1})^2}{\beta_t}) \\ &\propto \exp(-\frac{1}{2} \times \frac{(x_t-\sqrt{\alpha_t} x_{t-1})^2}{\beta_t}) \qquad (4) \end{aligned}$

由等式(2) 可知，剩余两项可写为：

$q_{(x_{t-1}|x_0)} = \prod_{s=1}^{t-1} q_{(x_s|x_{s-1})} \qquad (5)$
$q_{(x_{t}|x_0)} = \prod_{s=1}^{t} q_{(x_s|x_{s-1})} \qquad (6)$

其实它俩也是高斯分布，看我给你推。

证明：

$\because q_{(x_t|x_{t-1})} = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I}) \\ \quad \\ \therefore x_t \sim \mathcal{N}(\sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I}) \\ \quad \\ \begin{aligned} \therefore x_t &= \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} z_1 \qquad where z_1, z_2,... \sim \mathcal{N}(0,1)\\ &= \sqrt{\alpha_t} (\sqrt{\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_{t-1}} z_2) + \sqrt{1-\alpha_t} z_1 \\ &= \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})} z_2 + \sqrt{1-\alpha_t} z_1 \\ \end{aligned} \\$

好，有意思的来了

$\sqrt{\alpha_t(1-\alpha_{t-1})} z_2 \sim \mathcal{N}(0, \alpha_t(1-\alpha_{t-1})\mathbf{I}) \\ \sqrt{1-\alpha_t} z_1 \sim \mathcal{N}(0, (1-\alpha_{t})\mathbf{I}) \\ \quad \\ \therefore \sqrt{\alpha_t(1-\alpha_{t-1})} z_2 + \sqrt{1-\alpha_t} z_1 \sim \mathcal{N}(0, (1-\alpha_t\alpha_{t-1})\mathbf{I})$

上面的计算就省了，递推一下，下面的递推可能看上去有点武断，但确实是对的

$\begin{aligned} x_t &= \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} z_1 \\ &= \sqrt{\alpha_t\alpha_{t-1}}x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} z_2 \\ &= ... \\ &= \sqrt{\alpha_t\alpha_{t-1}...\alpha_1}x_{0} + \sqrt{1-\alpha_t\alpha_{t-1}...\alpha_1} z_t \qquad (7)\\ \end{aligned}$

简记一下 $\overline{\alpha_t} = \prod_{i=1}^t \alpha_i \qquad$ 等式(7)就可以简写为:

$x_t = \sqrt{\overline{\alpha_t}} x_0 + \sqrt{1-\overline{\alpha_t}} z_t \sim \mathcal{N}(\sqrt{\overline{\alpha_t}} x_0,1-\overline{\alpha_t}\mathbf{I}) \qquad (8)$

证明完毕， $x_t和x_{t-1}$ 确实都是高斯分布

那么(5)(6)的分布也到手了

$\begin{aligned} q_{(x_{t-1}|,x_0)} &\propto \exp(-\frac{1}{2} \times \frac{(x_{t-1} - \sqrt{\overline{\alpha_{t-1}}} x_0)^2}{1-\overline{\alpha_{t-1}}}) \\ q_{(x_{t}|,x_0)} &\propto \exp(-\frac{1}{2} \times \frac{(x_{t} - \sqrt{\overline{\alpha_{t}}} x_0)^2}{1-\overline{\alpha_{t}}}) \\ \end{aligned}$
好好好，现在倒推的分布 $q_{(x_{t-1}|x_t)}$ 也就快到手了