【扩散模型系列学习】Diffusion Model

吃吃今天努力学习了吗

已于 2024-08-26 16:39:52 修改

阅读量851

点赞数 22

分类专栏：计算机视觉cv 文章标签：机器学习人工智能概率论算法扩散模型

于 2024-08-26 16:36:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38068229/article/details/141531644

版权

计算机视觉cv 专栏收录该内容

22 篇文章 6 订阅

订阅专栏

Denoising Diffusion Probabilistic Models

生成模型简介

生成式模型：

生成是“言出法随”
生成是“涌现” or “幻觉”

定义：

一个能随机生成与训练数据一致的模型

问题：

如何对训练数据建模？
如何采样？

思路：

从一个简单分布采样是容易的
从简单分布到观测数据分布是可以拟合的

生成模型的解题思路：

将观测数据分布映射到简单分布【encoder】
从简单分布中映射到观测数据分布【decoder】

在这里插入图片描述

Why 高斯？高斯混合模型

一个复杂分布可以用多个高斯分布来表示。假设有K个高斯分布，这K个高斯分布称作混合模型的隐变量。则复杂分布的概览分布是：
$P_\theta(x)=\sum_{i=1}^KP(z_i)*P_\theta(x|z_i)$
这里 $P(z_i)$ 表示第i个高斯分布在观测数据中所占概率。 $P_\theta(x|z_i)$ 表示第i个高斯分布的概率分布函数。

实际K取多少？K是超参数吗？
我们得知里 $P(z_i)$ 表示第i个高斯分布在观测数据中所占概率，那么其积分=1，所以用一个连续的标准高斯分布来表示， $P(z)\sim N(0,1)$ 。
上面离散的即转为连续。
$P_\theta(x)=\int P(z)*P_\theta(x|z)$

如何求 $\theta$ ？
Maximum Likelihood Estimate： $\theta ^*=argmax_\theta P_\theta (x)$
（详细公式推导略。）

DDPM

Diffusion Model 作为生成模型的一类同样包含encoder和decoder两个阶段。

前向扩散过程：
向观测数据中逐步加入噪声，直到观测数据变成高斯分布。
反向生成过程：
从一个高斯分布中采样，逐步消除噪声，直到变成清晰数据。

（受启发于非平衡热力学。）

前向扩散过程：

如何加噪声？
$x_t=\sqrt{1-\beta_t}*x_{t-1}+\sqrt{\beta_t}*\epsilon_{t-1}$
加了多少次噪声？
在DDPM中一共加了1000次噪声。

在这里插入图片描述

重参数采样：

若y是一个高斯分布 $y\sim N(\mu,\sigma ^2)$

则 $\frac{y-\mu}{\sigma}\sim N(0,1)$

设 $\epsilon$ 是一个标准高斯分布

则 $y=\sigma*\epsilon+\mu\sim N(\mu,\sigma ^2)$

所以 $x_t$ 满足高斯分布 ( $x_t=\sqrt{1-\beta_t}*x_{t-1}+\sqrt{\beta_t}*\epsilon_{t-1}$ )，且：

$x_t\sim N(\sqrt{1-\beta_t}*x_{t-1},\beta_t)$

论文中的定义：

一个真实分布的data，分布满足 $x_0\sim q(x)$ ，一共加了T次噪声，得到 $x_1, x_2, ..., x_r$
每次加噪声操作是对前一次加完噪声的结果操作（Markov chain），

$q(x_t|x_{t-1})=N(x_t;\sqrt{1-\beta_t}*x_{t-1},\beta_tI)$

$\beta_t$ 是超参数，I 是标准高斯分布，在DDPM中， $\beta_t$ 是随着 t 线性增长的（随着 t 的增大， $x_t$ 趋近于标准高斯分布）。

$x_t$ 可以根据 $x_0,t$ 直接推导出来

两个独立高斯分布的和依然是高斯分布，且均值为二者均值的和，方差为二者方差的和。

在这里插入图片描述
所以，给定图片和时间t，前向扩散是一个确定的过程。
$q(x_t|x_0)=N(x_t;\sqrt{\overline{\alpha}_t}*x_0,(1-\overline{\alpha}_t)*\epsilon)$

反向扩散过程：

反向生成过程：从一个高斯分布采样，通过反转过程生成观测图像
在这里插入图片描述
事实上在已知 $x_0$ 情况下，反向生成过程也是一个确定性的过程。

根据贝叶斯公式
在这里插入图片描述

在这里插入图片描述

优化目标：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

总结

DDPM 是一类生成模型，输入是标准高斯噪声，输出是图片
DDPM 是稳定易训练的
DDPM 生成过程不是一步到位的，需要迭代（耗时）
DDPM 的输入和输出尺寸是一致的（耗资源耗时）

针对耗时的问题
许多加速采样的方法应运而生，目的是降低迭代的次数，从而提速

针对耗资源的问题
Latent Diffusion Models 通过结合 VQ-VAE，将diffusion model做到VAE的encoder输出上，如此减少了diffusion model的输入尺寸，也节省了资源和耗时。

Reference:
B站up主: SY_007 Diffusion Model讲解视频

$A u t h or : C hi er$

吃吃今天努力学习了吗

关注

22
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。