近年来,生成式建模领域的发展令人瞩目,各种新颖的模型架构不断涌现,其中扩散模型(Diffusion Models)因其在图像生成任务中的卓越表现而备受关注。本文将介绍一种常见的扩散模型:DDPM(Denoising Diffusion Probabilistic Models),并探讨其工作原理及应用。
一、什么是扩散模型?
扩散模型是一类生成模型,旨在通过模拟数据分布逐步生成逼真的样本。其核心思想是在高斯噪声的扰动下,逐步将数据样本退化成纯噪声,然后通过一个逆过程逐渐去噪,恢复出原始数据。
扩散模型最初的构思源自于物理中的扩散过程,模拟粒子从高浓度区域向低浓度区域扩散。在生成模型中,这一过程被反过来使用,即从噪声开始,逐步引导模型生成具有真实感的样本。
二、DDPM的基本原理
DDPM(Denoising Diffusion Probabilistic Models)是扩散模型中的一种经典架构,其核心思想可以分为两个阶段:正向过程(Forward Process)和逆向过程(Reverse Process)。
1. 正向过程(Forward Process)
在正向过程中,给定一个数据样本 x 0 x_0 x0,我们通过加入逐步增大的高斯噪声来生成一系列中间状态 x 1 , x 2 , … , x T x_1, x_2, \dots, x_T x1,x2,…,xT,最终得到接近纯噪声的状态 x T x_T xT。这一过程可以表示为:
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t \mathbf{I})