【扩散模型】1、扩散模型 | 到底什么是扩散模型?

呆呆的猫

已于 2023-09-03 21:49:51 修改

阅读量1.8w

点赞数 34

分类专栏：扩散模型文章标签：人工智能计算机视觉扩散模型

于 2023-03-11 09:51:34 首次发布

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/129439761

版权

扩散模型专栏收录该内容

13 篇文章 21 订阅

订阅专栏

文章目录

参考论文：A Survey on Generative Diffusion Model

github：https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model

一、什么是扩散模型

1.1 现有生成模型简介

在这里插入图片描述

已经有大量的方法证明深度生成模型能够模拟人类的想象思维，生成人类难以分辨真伪的内容，主要方法如下：

1、GAN：用神经网络训练生成器和判别器

在这里插入图片描述

GAN 的主要思想：

GAN 就是一个互搏的过程，要训练两个网络，一个是生成器，一个是判别器
生成器就是给定一个随机噪声，生成一些东西，我们希望其能生成一个比较逼真的图片，把生成的图片和真实的图片给到判别器，让判别器来看哪些是真图片和假图片，就是 0/1 的判断
通过两个网络互相学习，互相提高，最后能生成比较真实的图片

缺点：

可解释性较差：GAN 不是概率模型，是通过网络完成的，是隐式的，所以不知道它到底学到了什么，不知道其遵循了什么分布
训练时不稳定：因为要同时训练两个网络，就有需要平衡的问题，训练不好的话容易模型坍塌
多样性较差

优点：

GAN 的目标函数是用来以假乱真的，所以保真度和细节都非常好

2、AE、DAE、VAE、VQVAE：

在这里插入图片描述

Auto-Encoder (AE)：给定输入 x，经过编码器 encoder 就能得到特征，特征维度会变小，然后在使用解码器，得到一个图像，训练的目标函数是希望解码器的输出能尽可能的重建输入，也正是因为是自己重建自己，所以是自编码器

Denoising Auto-Encoder (AE)：先对原图输入进行扰乱，后续过程和 AE 一样，依然希望输入能够重建原始的未经过扰乱的输入，这个扰动很有用，会让训练出来的模型非常稳健，不容易过拟合。图片数据本来就是冗余的，所以添加一些扰动后，模型仍然能够学习到很好的特征。

AE 和 DAE 或者 MAE 其实都是为了学习中间那个 bottleneck 特征 z，学习好了后用于分类、检测等任务，并不是做生成的，其原因在于这里的 z 是专门用来重建的特征，并不是随机噪声，并不能用于采样来生成图像

所以就有了 VAE，也就是变分自编码器，VAE 和 AE 是很不同的，虽然结构看起来很像，但很重要的区别是，中间不再是学习一个 bottleneck 的特征，而是学习了一个分布，假设分布是高斯分布，可以用均值和方差来描述，就是从 encoder 得到特征后，加一些 FC 层，来预测均值和方差，得到后用公式采样一个 z 出来，VAE 就可以用来做生成了，因为在训练好后，可以扔掉 encoder，这里的 z 就是能随机抽样出的样本，然后就能生成图片了

VAE 这里生成的是一个分布，从贝叶斯角度来看，前面的过程是一个后验概率 p(z|x)，就是给定 x 得到 z 的过程，学到的 z 就是一个先验分布，后面的过程是一个先验概率 p(x|z)，就是给定 z 预测 x 的过程，其实就是最大似然，这里做的就是 maximize likelihood。

VAE 因为是学习的概率分布，是从分布中抽样的，生成的图片的多样性比 GAN 好的多，后面还有一些 VQVAE 和 DALLE 1 都是在 VAE 的基础上做的。

在这里插入图片描述

VAE 其实结构和扩散模型很像，且有较好的理论可解释性，但 Encoder 使用很大的步长来学习数据分布并进行加噪，Decoder 也使用很大的步长来去噪，导致学习的不够细致，很粗糙。

3、Diffusion model

前向扩散：在输入 x0 上逐步加噪声，一共加 T 次，最终变成一个真正的噪声，各向同性正态分布

逆向去噪：从最终的 xT 逐步恢复原图的过程，使用的是共享参数的 U-Net 结构

在这里插入图片描述

扩散模型发展历程：

DDPM → improved DDPM → Diffusion beats GAN → GLIDE → DALLE2 → Imagen

在这里插入图片描述

1.2 扩散模型的理论来源

我们主要介绍扩散模型，扩散模型背后的直觉来源于物理学：

在物理学中，气体分子从高浓度区域扩散到低浓度区域
这与由于噪声的干扰而导致的信息丢失是相似的
通过引入噪声，然后尝试去噪来生成图像，模型每次在给定一些噪声输入的情况下学习生成新图像。

1.3 扩散模型的使用场景

扩散模型可以用到哪些任务上：

计算机视觉
语言模型
声音模型
AI for science

扩散模型的应用场景：

图文生成
视频生成
分子结构生成
AI 绘画
AI 制药
…

1.4 扩散模型的基本结构

扩散模型的工作原理：

学习由于噪声引起的信息衰减，然后使用学习到的模式来生成图像

扩散模型的结构：

扩散模型定义了一个扩散步骤的马尔可夫链，慢慢地向数据中添加随机噪声，也就是熵增的过程，然后学习逆向扩散过程，从噪声中构建所需的数据样本
前向扩散过程 $q$ ：为输入图像 $x_0$ 引入一系列的随机噪声，也就是对样本点分 T 步添加高斯噪声，随着噪声的引入， $x_0$ 最终会失去区分特性
逆向恢复过程 $p$ ：从高斯先验出发，从有大量随机噪声的图中学习恢复原图

在这里插入图片描述

扩散模型相比 GAN 或 VAE 的缺点：

速度慢：扩散模型是基于马尔科夫过程来实现的，在训练和推理的时候都需要很多步骤

在这里插入图片描述

1.5 马尔可夫过程

马尔可夫模型有两个假设：

系统在 $t$ 时刻的状态只与 $t - 1$ 时刻的状态有关，也称无后效性
状态转移概率与时间 $t$ 无关，只与前驱和后继的状态有关，也称齐次性或时齐性

1、无后效性

具有马尔科夫性质的状态满足下面公式：

$P(S_{t+1}|S_t)=P(S_{t+1}|S_1,...,S_t)$

上述公式的意义：

给定当前状态 $S_t$ ，将来的状态 $S_{t+1}$ 和 $t$ 时刻之前的状态 ${S_1, ..., S_{t-1} \}$ 已经没有关系，只和当前的状态 $S_t$ 有关系。
当前的状态 $S_t$ 中已经包括了历史的相关信息，所以之前的状态可以忽略

2、齐次性

对状态 $s$ 和后继状态 $s^{'}$ ，状态转移概率定义为：
$P_{ss'}=P[S_{t+1}=s'|S_t=s]$

状态转移矩阵 P 定义了从 $s$ 转移到后继状态 $s^{'}$ 的概率：

在这里插入图片描述
其中的每行和为1：

比如掷骰子游戏，当前的点数为1
再一次掷骰子得到的点数的概率，即使我们不知道下一个具体点数的概率，但是我们知道下一个点数是1，2，3，4，5，6中的某一点，那么就会有：

马尔可夫过程：

马尔科夫过程一个无记忆的随机过程，是一些具有马尔科夫性质的随机状态序列构成，可以用一个元组 <S,P> 表示：

S 是有限数量的状态集合
P 是状态转移概率矩阵， $P_{ss'}=P[S_{t+1}=s'|S_t=s]$

二、扩散模型相关定义

2.1 符号和定义

1、State：状态

State 是能够描述整个扩散模型过程的一系列数据：

初始状态：starting state $x_0$
prior state：离散时为 $x_T$ ，连续时为 $x_1$
中间状态：intermediate state $x_t$

2、Process 和 Transition Kernel

Forward/Diffusion 过程 $F$ ：将初始状态转换到有噪声的状态
Reverse/Denoised 过程 $R$ ：和前向过程方向相反，从有噪声的图像中逐步复原原图的过程
Transition Kernel：在上面的两个过程中，每两个 state 的变换都是通过 transition kernel 来实现的，

前向和逆向的过程如下所示：

在这里插入图片描述

对于非离散情况，任何时间 $0 <= t < s < 1$ 的前向过程如下：

在这里插入图片描述

$F_t$ 和 $R_t$ 分别是 $t$ 时刻从状态 $x_{t-1}$ 转换成状态 $x_t$ 的前向 transition kernel 和逆向 transition kernel
$\sigma_t$ 是噪声尺度
最常用的 transition kernel 是 Markov kernel，因为其具有较好的任意性和可控性

3、Pipeline：

假设定义 sampled data 为 $\widetilde{x}_0$ ，则整个过程可以描述如下：

在这里插入图片描述

4、离散和连续过程

与离散过程相比，连续过程能够从任何时间状态中提取任何信息

如果扰动核的变化足够小，则连续过程有更好的理论支撑

5、训练目标

扩散模型是生成模型的一个子类，和 VAE 的目标函数类似，目标是让初始分布 $x_0$ 和采样分布 $\widetilde{x}_0$ 尽可能的接近。

通过最大化如下 log-likelihood 公式来实现，其中 $\widetilde{\sigma}$ 在前向和逆向过程中是不同的：

在这里插入图片描述

2.2 问题规范化

1、Denoised Diffusion Probabilistic Model（DDPM）：去噪扩散概率模型

NIPS 2021 的论文 ‘Denoising diffusion probabilistic models’ 中对扩散概率模型进行了改进，提出了 DDPM：

使用固定的方差回归均值
用和噪声表示，通过均值预测网络重参数化，将关于均值的差改写为噪声预测网络与噪声的差，将目标函数改写为噪声预测的方式
对高斯噪声进行回归预测
对扩散模型的架构也进行了相应的改进，使用 U-Net 形式的架构，引入了跳跃连接，更适合于像素级别的预测任务

DDPM Forward Process：

DDPM 使用一系列的噪声系数 $\beta_1$ 、 $\beta_2$ … $\beta_T$ 作为不同时刻的 Markov trasition kernel。
一般都使用常数、线性规则、cosine 规则来选择噪声系数，而且 [68] 中也证明了不同的噪声系数在实验中也没有明显的影响
DDPM 的前向过程定义如下：
根据从 $x_0$ 到 $x_T$ 的扩散步骤， Forward Diffusion Process 如下：

DDPM Reverse Process：

逆向过程使用可学习的 Gaussian trasition 参数 $\theta$ 来定义如下：
逐步从 $x_T$ 复原到 $x_0$ 的过程如下，假设过程为 $p(x_T) = N(x_T;\ 0, I)$ ：
所以， $p_{\theta}(x_0)=\int p_{\theta}(x_{0:T})dx_{1:T}$ 的分布就是 $\widetilde{x}_0$ 的分布