DDPM论文详解

python学习与分享

已于 2024-08-20 11:09:17 修改

阅读量325

点赞数 3

文章标签：深度学习人工智能

于 2024-08-20 11:07:42 首次发布

本文链接：https://blog.csdn.net/m0_64148253/article/details/140829232

版权

文章目录

前言
一、建模
二、重参数化技巧
三、DDPM理论
四、前向过程
五、反向过程
六、优化目标
七、采样
八、模型结构
总结

前言

DDPM是2020年被提出来的一篇论文，论文全称是《Denoising Diffusion Probabilistic Models》去噪扩散概率模型，这是一种基于马尔科夫链的图像生成模型，其生成的图像质量更好，多样性更强，并且训练更加稳定。DDPM模型的工作原理包括两个主要过程：前向过程（扩散过程）和反向过程（逆扩散过程）。在前向过程中，模型逐步向数据中添加噪声，直到数据完全变成高斯噪声；而在反向过程中，模型则逐步从高斯噪声中去除噪声，最终生成原始数据或新的数据样本。接下来我们详细介绍一下DDPM这篇论文。

一、建模

图像生成可以建模如下图所示：
在这里插入图片描述
首先从一个简单的分布Z中（例如高斯分布）进行采样，然后将其经过神经网络，使得最后生成图像X的概率 $P_{\theta}(x)$ 和从真实分布中采样到图像X的概率 $P_{data}(x)$ 相同。我们要求的就是神经网络的参数 $\theta$ 。
假设我们可以计算出 $P_{\theta}(x)$ 的概率，在 $P_{data}(x)$ 中进行采样的到{ $x^1,x^2,x^3,...,x^m$ }，则神经网络的优化目标就是极大似然估计，

\theta^* = \arg \max_{\theta}\prod_{i=1}^mP_\theta(x^i)

这个公式可以理解为找到一个网络参数 $\theta$ ,让其产生{ $x^1,x^2,x^3,...,x^m$ }的概率连乘最大。也就是说最终连乘概率最大，则 $P_\theta(x)$ 和 $P_{data}(x)$ 两个分布越接近。
为什么最大似然估计（连乘概率越大），两个分布越接近呢？这个是可以通过数学公式推导出来。直接上结果：

\theta^* = \arg \max_\theta\prod_{i=1}^mP_\theta(x^i) \approx \arg\min_\theta KL(P_{data}||P_\theta)

因此可以理解为最大似然估计可以近似等于最小化两个分布之间的KL散度。
对于最大似然公式，我们在前面加入 $\log$ ，如下所示：

\arg \max_\theta\prod_{i=1}^mP_\theta(x^i) = \arg \max_\theta\log\prod_{i=1}^mP_\theta(x^i) = \arg\max_\theta\sum_{i=1}^m\log P_\theta(x^i)

对于每一个 $\log P(x)$ ，对其进行变形，
$\log P (x) \\= \int_zq(z|x)\log P(x)dz \\= \int_zq(z|x)\log(\frac{P(z,x)}{P(z|x)})dz \\= \int_zq(z|x)\log(\frac{P(z,x)}{q(z|x)}\frac{q(z|x)}{P(z|x)})dz \\= \int_zq(z|x)\log(\frac{P(z,x)}{q(z|x)})dz + \int_zq(z|x)\log(\frac{q(z|x)}{P(z|x)})dz \\\geqslant\int_zq(z|x)\log(\frac{P(z,x)}{q(z|x)})dz \\= E_{q(z|x)}[\log(\frac{P(x,z)}{q(z|x)})]$
可以得出， $\log P(x)$ 的下界为 $E_{q(z|x)}[\log(\frac{P(x,z)}{q(z|x)})]$ ，最大化 $\log P(x)$ 的问题可以转化为最大化 $E_{q(z|x)}[\log(\frac{P(x,z)}{q(z|x)})]$ 。其中 $q (z ∣ x)$ 可以是任意分布，可以把其看作是模型中编码的过程，根据一个已知输入 $x$ ，映射为 $z$ 的概率。因为模型的参数和输入是确定的，所以 $q (z ∣ x)$ 是一个确定性的分布。

二、重参数化技巧

在正式介绍DDPM之前，首先介绍一下高斯分布的重参数化相关知识。
对于一个高斯分布 $\epsilon\sim\mathcal{N}(0, I)$ ， $\mu+\sigma*\epsilon$ ，则 $y\sim\mathcal{N}(\mu,\sigma^2I)$ 。
$y_1\sim\mathcal{N}(\mu_1,\sigma_1^2I),y_2\sim\mathcal{N}(\mu_2,\sigma_2^2I)$ ，假设 $y_3=y_1+y_2$ ，则 $y_3\sim\mathcal{N}(\mu_1+\mu_2,(\sigma_1^2+\sigma_2^2)I)$ 。
接下来举一个详细的例子说明重参数化的作用。

$y_1 = \mu_1+\sigma_1*\epsilon_1$ , $y_1\sim\mathcal{N}(\mu_1,\sigma_1^2I)$

最低0.47元/天解锁文章

python学习与分享

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
DDPM论文详解

DDPM是2020年被提出来的一篇论文，论文全称是《Denoising Diffusion Probabilistic Models》去噪扩散概率模型，这是一种基于马尔科夫链的图像生成模型，其生成的图像质量更好，多样性更强，并且训练更加稳定。DDPM模型的工作原理包括两个主要过程：前向过程（扩散过程）和反向过程（逆扩散过程）。在前向过程中，模型逐步向数据中添加噪声，直到数据完全变成高斯噪声；而在反向过程中，模型则逐步从高斯噪声中去除噪声，最终生成原始数据或新的数据样本。
复制链接

扫一扫