Denoising Diffusion Probabilistic Models(DDPM）公式推导

视频编码小菜鸟

于 2024-08-16 20:43:59 发布

阅读量359

点赞数 4

文章标签：图像生成

本文链接：https://blog.csdn.net/qq_28234239/article/details/141269327

版权

Denoising Diffusion Probabilistic Models(DDPM，去噪扩散概率模型)

公式推导

前向过程，加噪过程

前向过程的目标是通过原始图片得到添加了噪声的图片。

$x_0$ 表示原始图片 , $x_t$ 表示添加了噪声的图片, $\epsilon_t \sim N(0,1)$ , $\epsilon \sim N(0,1)$
$x_t = \sqrt{\alpha_t}x_{t-1}+\sqrt{\beta_t}\epsilon_t \tag{1}$

$x_{t-1} = \sqrt{\alpha_{t-1}}x_{t-2}+\sqrt{\beta_{t-1}}\epsilon_{t-1} \tag{2}$

合并公式(1), (2)得到
$x_t = \sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{\alpha_t}\sqrt{1-\alpha_{t-1}}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon{t} \tag{3}$
用重参数化技巧（正态分布的可加性），合并公式(3)中的两个高斯噪声 $\epsilon_{t-1}$ , $\epsilon_{t}$ ,表示为 $\epsilon$ ：
$N(0,\alpha_t-\alpha_t\alpha_{t-1})+N(0,1-\alpha_t) = N(0,1-\alpha_t\alpha_{t-1}) \tag{4}$

$x_t = \sqrt{\alpha_t\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_t\alpha_{t-1}}\epsilon \tag{5}$

运用数学归纳法得到 $x_t$ 和 $x_{t-k}$ 的关系：
$x_t = \sqrt{\alpha_t\alpha_{t-1}\cdots\alpha_{t-k+1}}x_{t-k}+\sqrt{1-\alpha_t\alpha_{t-1}\cdots\alpha_{t-k+1}}\epsilon \tag{6}$

进一步得到 $x_t$ 和 $x_{0}$ 的关系：
$x_t = \sqrt{\alpha_t\alpha_{t-1}\cdots\alpha_{1}}x_{0}+\sqrt{1-\alpha_t\alpha_{t-1}\cdots\alpha_{1}}\epsilon \tag{7}$

为了方便表达，使 $\overline{\alpha}=\alpha_t\alpha_{t-1}\cdots\alpha_{1}$
$x_t = \sqrt{\overline{\alpha}}x_{0}+\sqrt{1-\overline{\alpha}}\epsilon \tag{8}$
前向过程推导结束

反向过程，去噪过程

反向过程的目标是从最后的噪声图片 $x_T$ 中恢复出原始图片 $x_0$ .

贝叶斯定理[^3]
$\mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)} \tag{9}$
$\mid B)$ : posterior,后验概率。 $\mid A)$ : likelihood,似然。 $P (A)$ : prior,先验概率。 $P (B)$ : Evidence,证据。

在反向过程中，我们想从 $x_t$ 得到 $x_{t-1}$ ,也就是 $P(x_{t-1}\mid x_t)$ ，根据贝叶斯定理可知
$P(x_{t-1}\mid x_t) = \frac{P(x_t \mid x_{t-1})\cdot P(x_{t-1})}{P(x_t)} \tag{10}$

根据公式(1),可知
$P(x_t \mid x_{t-1}) \sim N(\sqrt{x_{t-1}},1-\alpha_t) \tag{11}$

根据公式(8),可知
$P(x_t \mid x_0) \sim N(\sqrt{\overline{\alpha_t}}x_0,1-\overline{\alpha_t}) \tag{12}$

$P(x_{t-1} \mid x_0) \sim N(\sqrt{\overline{\alpha_{t-1}}}x_0,1-\overline{\alpha_{t-1}}) \tag{13}$

根据正态分布的指数形式表达式可以将公式(10)化简为

$P(x_{t-1}\mid x_t) \sim N(\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}(1-\alpha_t)}{1-\overline{\alpha_t}}x_0,~ {\frac{\sqrt{1-\alpha_t}\sqrt{1-\overline{\alpha_{t-1}}}}{\sqrt{1-\overline{\alpha_t}}}}) \tag{14}$
根据公式(8) 得到
$x_0 = \frac{x_t-\sqrt{1-\overline{\alpha_t}}\times\epsilon}{\sqrt{\overline{\alpha_t}}} \tag{15}$
最后可知：
$P(x_{t-1}\mid x_t) \sim N(\frac{\sqrt{\alpha_t}(1-\overline{\alpha_{t-1}})}{1-\overline{\alpha_t}}x_t+\frac{\sqrt{\overline{\alpha_{t-1}}}(1-\alpha_t)}{1-\overline{\alpha_t}}\times \frac{x_t-\sqrt{1-\overline{\alpha_t}}\times\epsilon}{\sqrt{\overline{\alpha_t}}},~ {\frac{\sqrt{1-\alpha_t}\sqrt{1-\overline{\alpha_{t-1}}}}{\sqrt{1-\overline{\alpha_t}}}}) \tag{16}$
公式(16)表示通过 $x_t$ 和 $\epsilon$ 可以采样出一个上一时刻的图片。用一个神经网络。输入 $x_t$ 预测 $\epsilon$ ,得到前一时刻的概率分布，然后用这个概率分布随机采样，就得到了前一时刻的图像 $x_{t-1}$ 。以上公式推导参考B站大白话AI[^4]

参考：

[^1]ascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning, pages 2256–2265, 2015.

[^2] 马尔可夫链:Markov chain

[^3] 贝叶斯公式:Bayes’ theorem

[^4] DDPM公式推导 B站大白话AI

文章信息

发表时间：2020，发表地点：NuerPIS，作者：Jonathan Ho，机构：UC Berkeley.

github：DDPM

原发表网站引用模板：

@inproceedings{NEURIPS2020_4c5bcfec,

author = {Ho, Jonathan and Jain, Ajay and Abbeel, Pieter},

booktitle = {Advances in Neural Information Processing Systems},

editor = {H. Larochelle and M. Ranzato and R. Hadsell and M.F. Balcan and H. Lin},

pages = {6840--6851},

publisher = {Curran Associates, Inc.},

title = {Denoising Diffusion Probabilistic Models},

url = {[https://proceedings.neurips.cc/paper_files/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf}](https://proceedings.neurips.cc/paper_files/paper/2020/file/4c5bcfec8584af0d967f1ab10179ca4b-Paper.pdf%7D),

volume = {33},

year = {2020}

}

视频编码小菜鸟

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Denoising Diffusion Probabilistic Models(DDPM）公式推导

前向过程的目标是通过原始图片得到添加了噪声的图片。x0表示原始图片 ,xt表示添加了噪声的图片,ϵt∼N01ϵ∼N01xtαtxt−1βtϵt1xt−1αt−1xt−2βt−1ϵt−12合并公式(1), (2)得到xtαtαt−1xt−2αt1−αt−1ϵt−。
复制链接

扫一扫