第二十三课.扩散模型

tzc_fly

已于 2022-11-03 19:08:41 修改

阅读量1.6k

点赞数

分类专栏：随机过程与概率图模型文章标签：人工智能

于 2022-11-03 19:07:26 首次发布

本文链接：https://blog.csdn.net/qq_40943760/article/details/127671055

版权

随机过程与概率图模型专栏收录该内容

23 篇文章 14 订阅

订阅专栏

概述

近几年扩散模型不断涌现，但都来源于一个基础模型：DDPM（Denoising Diffusion Probabilistic Model）。扩散模型本质是生成模型，过去我们常用的生成模型包括GAN和VAE，利用随机噪声生成图像样本。GAN和VAE有一个共同点，它们都是使用一个网络直接一步式生成结果，如果要获得好的生成结果，不得不追求更复杂的网络，但是这会导致训练困难。

相反，DDPM中包含了一个新的想法，对于前向过程，我们对 $x_{0}$ 逐步加噪声，得到一系列的数据 $x_{t-1},x_{t},...,x_{T}$ 。如下图所示：
fig2
虽然前向步骤和图像生成没有关系，但这是构建训练样本GT的重要步骤。

前向过程的每个时刻 $t$ 只与时刻 $t - 1$ 有关，所以可以看作马尔可夫过程，扩散的目的是通过马尔可夫过程将 $x_{0}$ 逐渐映射到多维正态分布（高斯噪声）。其中每一步的随机过程为 $q(x_{t}|x_{t-1})$ ，这个过程由我们自己定义（是已知的），通常，我们把加噪声的过程定义为（利用了重参数方式）： $x_{t}=\alpha_{t}x_{t-1}+\beta_{t}\epsilon_{t},\epsilon_{t}\sim N(0,I)$ 其中， $\alpha_{t},\beta_{t}$ 是系数，并且满足调和关系： $\alpha_{t}^{2}+\beta_{t}^{2}=1$ 其中， $\beta_{t}$ 是随着 $t$ 的增加不断变大的。

从 $x_{T}$ 到 $x_{0}$ 的过程是扩散的逆向过程，图像慢慢从高斯噪声变换到正常图像，每一步的随机过程为 $q(x_{t-1}|x_{t})$ ，该过程是未知的，因此扩散模型要做的是定义一个可学习的为 $p_{\theta}(x_{t-1}|x_{t})$ 的逆向过程，通过优化参数 $\theta$ ，使得该过程尽可能接近真实逆向过程 $q(x_{t-1}|x_{t})$ ，从而使我们能通过一个高斯噪声生成正常图像。

前向过程

DDPM定义的前向过程为： $q(x_{t}|x_{t-1})=N(x_{t};\sqrt{\alpha_{t}}x_{t-1},\beta_{t}I)$ 由于高斯分布的性质，可以得到： $q(x_{t}|x_{0})=N(x_{t};\sqrt{\overline{\alpha}_{t}}x_{0},(1-\overline{\alpha}_{t})I)$ 其中 $I$ 为单位矩阵， $\overline{\alpha}_{t}=\prod_{i=1}^{t}\alpha_{i}$ ，由于 $\alpha_{t}$ 是逐渐减小的，所以当 $t$ 接近无穷时， $q(x_{t}|0)=N(x_{t};0,I)$ ，即此时 $x_{t}$ 服从标准正态分布。

关于 $N(x_{t};0,I)$ ，指的是 $x_{t}\sim N(0,I)$ 。

逆向过程

对于逆向的随机过程 $q(x_{t-1}|x_{t})$ 是无法求出的，但是在已知 $x_{0}$ 的情况下，我们可以通过贝叶斯公式求出： $q(x_{t-1}|x_{t},x_{0})=q(x_{t}|x_{t-1},x_{0})\frac{q(x_{t-1}|x_{0})}{q(x_{t}|x_{0})}\\=N(x_{t-1};\widetilde{\mu}_{t}(x_{t},x_{0}),\widetilde{\beta}_{t}I)$ 其中： $\widetilde{\mu}_{t}(x_{t},x_{0})=\frac{\sqrt{\alpha_{t}(1-\overline{\alpha}_{t-1})}}{1-\overline{\alpha}_{t}}x_{t}+\frac{\sqrt{\overline{\alpha}_{t-1}}\beta_{t}}{1-\overline{\alpha}_{t}}x_{0}$ $\widetilde{\beta}_{t}=\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_{t}}\beta_{t}$ 对随机过程 $q(x_{t}|x_{0})$ 使用重参数方法，得到 $x_{t}$ 关于 $x_{0}$ 的表达式，并且表达式中包含一个高斯噪声 $\epsilon_{t}\sim N(0,I)$ ，再转换一下变量，就得到： $x_{0}=\frac{x_{t}-\sqrt{1-\overline{\alpha}_{t}}\epsilon_{t}}{\sqrt{\alpha_{t}}}$ 把 $x_{0}$ 代入 $\widetilde{\mu}_{t}(x_{t},x_{0})$ 得到： $\widetilde{\mu}_{t}=\frac{1}{\sqrt{\alpha_{t}}}(x_{t}-\frac{\beta_{t}}{\sqrt{1-\overline{\alpha}_{t}}}\epsilon_{t})$ 到这里，我们发现，如果我们假设我们知道了 $x_{0}$ ，我们可以根据 $q(x_{t-1}|x_{t},x_{0})$ 采样出 $x_{t-1}$ ，但问题在于，在重参数过程中有一个随机噪声 $\epsilon_{t}$ ，尽管它服从标准正态分布，但是要还原到 $x_{0}$ ，我们必须确保逆向过程的每一步都能准确预测出每一步的 $\epsilon$ 的具体噪声值。所以，DDPM使用UNet来预测这个噪声值。

DDPM

我们先设： $p_{\theta}(x_{t-1}|x_{t})=N(x_{t-1};\mu_{\theta}(x_{t},t),\widetilde{\beta}_{t}I)$ 而 $\mu_{\theta}(x_{t},t)$ 的表达式为： $\mu_{\theta}(x_{t},t)=\frac{1}{\sqrt{\alpha_{t}}}(x_{t}-\frac{\beta_{t}}{\sqrt{1-\overline{\alpha}_{t}}}\epsilon_{\theta}(x_{t},t))$ 其中， $\epsilon_{\theta}$ 就是这个UNet， $\theta$ 是网络参数，网络输入 $x_{t}$ 和 $t$ ，然后预测出该时刻的噪声 $\widehat{\epsilon}_{t}$ ，然后根据下面式子从 $x_{t}$ 回到 $x_{t-1}$ ： $x_{t}=\alpha_{t}x_{t-1}+\beta_{t}\epsilon_{t}\rightarrow x_{t-1}=\frac{x_{t}-\beta_{t}\widehat{\epsilon}_{t}}{\alpha_{t}}$ 因此，对于训练，只需要让UNet在每个时刻的输出拟合前向过程对应时刻采样出的噪声即可： $L_{t}=||\epsilon_{t}-\widehat{\epsilon}_{t}||=||\epsilon_{t}-\widehat{\epsilon}(x_{t},t)||$

tzc_fly

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第二十三课.扩散模型

近几年扩散模型不断涌现，但都来源于一个基础模型：DDPM（Denoising Diffusion Probabilistic Model）。扩散模型本质是生成模型，过去我们常用的生成模型包括GAN和VAE，利用随机噪声生成图像样本。GAN和VAE有一个共同点，它们都是使用一个网络直接一步式生成结果，如果要获得好的生成结果，不得不追求更复杂的网络，但是这会导致训练困难。相反，DDPM中包含了一个新的想法，对于前向过程，我们对x0x_{0}x0逐步加噪声，得到一系列的数据xt−1,x。
复制链接

扫一扫