扩散模型（Diffusion Model）在图像和视频生成中的研究综述：Paper调研

阿正的梦工坊

已于 2025-03-06 09:40:33 修改

阅读量954

点赞数 30

分类专栏： Deep Learning 文章标签：计算机视觉人工智能机器学习深度学习

于 2025-03-06 09:22:43 首次发布

本文链接：https://blog.csdn.net/shizheng_Li/article/details/146058754

版权

Deep Learning 专栏收录该内容

290 篇文章

订阅专栏

扩散模型在图像和视频生成中的最新进展研究综述

引言

近年来，深度生成模型在图像和视频合成领域取得了突破性进展。其中，扩散模型（Diffusion Model）崭露头角，逐步发展为与生成对抗网络（GAN）、变分自编码器（VAE）和流模型（Flow-based Model）等并列的重要生成范式。不同于GAN需要通过判别器反馈训练，扩散模型采用一种逐步“去噪”生成数据的策略，凭借稳定的训练过程和优秀的样本质量，已经在无条件图像生成、文本生成图像，以及视频生成等任务上达到或超过了此前最先进的方法 arxiv.org 。例如，有研究表明，扩散模型在无条件图像合成的样本质量上已经优于当时最先进的生成模型，并在ImageNet图像生成等任务上取得了新的最佳结果 arxiv.org 。扩散模型还展现出良好的模式覆盖能力，能够较少出现GAN常见的模式崩溃（mode collapse）问题 arxiv.org 。随着模型规模和推断策略的改进，扩散模型的应用范围迅速拓展，在图像生成、图像编辑、超分辨率、文本生成视频等各类任务中均取得了领先性能。

报告内容与结构：本文面向学术研究者，对近年来扩散模型在图像和视频生成领域的最新进展进行系统梳理和深度解析。首先，我们将介绍扩散模型的基本数学原理，包括正向扩散和反向生成过程的公式推导以及与分数匹配（score matching）的关联。接着，我们按时间线讨论扩散模型的技术演进，重点介绍Score-based生成模型、DDPM（去噪扩散概率模型）、DDIM（去噪扩散隐式模型）、LDM（潜变量扩散模型）等里程碑式的方法，以及这些方法在模型结构、训练策略、采样效率等方面的创新。随后，我们将扩散模型与GAN、流模型等主流生成模型进行深入比较，从理论性质到实际性能（如生成质量、计算开销、收敛稳定性和样本多样性）等方面分析各自优劣。然后，我们总结扩散模型在图像和视频生成任务中的实际应用进展，包括无条件与条件图像生成、文本引导的图像/视频合成、图像到图像的转换与编辑，以及视频预测与插值等，结合最新研究成果进行讨论。为了定量评估，我们也将结合重要文献中的实验数据，对扩散模型在典型基准上的性能进行对比，例如在CIFAR-10、ImageNet等数据集上的生成质量指标FID、Inception Score，在COCO数据集上的图文匹配度评估，以及视频生成的FVD指标等，并提供这些实验的关键结果。最后，本文附上完整的参考文献与资源列表，涵盖重要论文和相关的开源项目，便于读者深入研读和使用这些成果。

通过本报告的梳理，读者将系统了解扩散生成模型领域近几年的核心进展以及其在图像、视频生成任务中的应用现状，希望为后续研究提供有价值的参考。

1. 扩散模型的数学原理与算法细节

本节我们深入解析扩散模型的核心数学原理和算法细节。扩散模型最初源于非平衡热力学的启发，被视作一类潜变量生成模型，通过对数据逐步添加噪声直至得到简单先验分布，再训练模型学会逐步去除噪声来还原数据 arxiv.org 。这一过程可以视为正向“扩散”（diffusion）和反向“去扩散”两个过程。下面我们将分别介绍正向扩散过程的定义、反向生成过程的建模，以及扩散模型训练目标的推导，并解释其与得分匹配（score matching）方法的关系。

1.1 正向扩散过程（Forward Diffusion）

设原始数据分布为 $x_0 \sim q(x_0)$ ，扩散模型首先定义一个正向马尔可夫链将数据逐步注入噪声，生成一系列中间状态 $x_1, x_2, \dots, x_T$ ，其中 $T$ 足够大使得 $x_T$ 接近各向同性高斯分布。常用的正向扩散定义为：在每一小步 $t$ ，向 $x_{t-1}$ 添加零均值的高斯噪声，形成 $x_t$ 。形式上，给定预设的很小的方差 $\beta_t$ （称为扩散步长），正向扩散过程定义为：

$q(x_t \mid x_{t-1}) = \mathcal{N}\!\Big(x_t; \sqrt{1-\beta_t}\,x_{t-1},\,\beta_t \mathbf{I}\Big), \quad t=1,2,\dots,T.$

这意味着 $x_t = \sqrt{1-\beta_t}\,x_{t-1} + \sqrt{\beta_t}\,\epsilon_t$ ，其中 $\epsilon_t \sim \mathcal{N}(0,\mathbf{I})$ 为标准高斯噪声。经过 $t$ 步扩散后，数据逐渐被淹没在噪声中。当 $T$ 充分大或 $\beta_t$ 按设计逐渐增大时， $x_T$ 的分布将非常接近简单的先验噪声分布（通常取标准正态分布） arxiv.org 。

一个重要性质是，上述线性高斯过程可以在封闭形式下直接表示从任意初始 $x_0$ 扩散到任意中间步骤 $x_t$ 的分布，无需逐步采样：

$q(x_t \mid x_0) = \mathcal{N}\!\Big(x_t; \sqrt{\bar{\alpha}_t}\,x_0,\,(1-\bar{\alpha}_t)\mathbf{I}\Big),$

其中 $\alpha_t = 1-\beta_t$ ， $\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$ 表示从1到 $t$ 的累积保持率。当 $T$ 足够大且噪声逐渐增加时， $\bar{\alpha}_T \to 0$ ，于是 $q(x_T|x_0) \approx \mathcal{N}(x_T; 0, \mathbf{I})$ ，即与标准高斯先验难以区分。

正向过程的设计确保了在 $t = 0$ 时 $x_0$ 是训练数据，在 $t = T$ 时 $x_T$ 接近先验噪声。这一正向扩散过程 $q(x_{0:T})$ 被固定为无需学习的马尔可夫链。扩散模型的学习任务在于训练一个反向过程，以便从纯噪声 $x_T \sim \mathcal{N}(0, \mathbf{I})$ 开始，经过 $T$ 步逐渐去除噪声，最终生成逼真的数据样本。

1.2 反向去噪过程（Reverse Diffusion）

由于正向扩散形成了一个易于采样的高斯过程，我们希望学习其逆过程 $p_\theta(x_{t-1}\mid x_t)$ 来实现从噪声到数据的生成。在理论上，如果正向过程 $q(\cdot)$ 已知且 $T$ 趋于无限，理想的逆过程也将是马尔可夫链，并且与正向过程具有相同形式的条件概率分布（即高斯） arxiv.org 。因此，扩散模型一般假设反向条件分布也是高斯分布，由待训练的参数 $\theta$ 确定均值和协方差：

$p_\theta(x_{t-1} \mid x_t) = \mathcal{N}\!\Big(x_{t-1};\,\mu_\theta(x_t,t),\,\Sigma_\theta(x_t,t)\Big),$

其中 $\mu_\theta(x_t,t)$ 和 $\Sigma_\theta(x_t,t)$ 是由神经网络输出的函数，一般选择协方差矩阵为对角矩阵。直观来说， $\mu_\theta(x_t,t)$ 会预测在 $t$ 时刻观测到带噪图像 $x_t$ 时，上一时刻 $t - 1$ 的去噪图像的均值； $\Sigma_\theta$ 则可选取为预设值或者一并预测。在早期工作中，常取 $\Sigma_\theta$ 等于一些固定值如正向 $\beta_t$ 或其上界，从而仅由模型预测均值 arxiv.org 。后续研究表明，学习 $\Sigma_\theta$ 能够在不牺牲生成质量的情况下，用更少的扩散步数完成采样 arxiv.org 。例如，Nichol等人通过学习反向过程的方差，大幅减少了采样所需的前向网络评估次数（数量级降低10倍），而样本质量几乎无损 arxiv.org 。

由于正向扩散各步是线性高斯的，严格来说反向扩散的真实条件分布也可以从贝叶斯公式推导得到封闭形式，但其中包含 $q(x_{t-1}|x_t, x_0)$ 这样的难以直接利用的真值信息。为此，我们转而通过最大似然估计来学习近似的反向模型 $p_\theta$ 。扩散模型将整个 $x_{0:T}$ 视为潜变量模型，目标是最大化边际对数似然 $\mathbb{E}_{q(x_0)}[\log p_\theta(x_0)]$ 。由于直接优化复杂，我们求其证据下界（ELBO）：

$\log p_\theta(x_0) \geq \mathbb{E}_{q}\Big[\log \frac{p_\theta(x_{0:T})}{q(x_{1:T}\mid x_0)}\Big] = - \mathcal{L}_{\text{ELBO}},$

其中 $q(x_{1:T}\mid x_0)$ 表示正向过程， $p_\theta(x_{0:T}) = p(x_T)\prod_{t=1}^T p_\theta(x_{t-1}\mid x_t)$ 表示模型的完整联合概率。经过推导，ELBO的损失 $\mathcal{L}_{\text{ELBO}}$ 可以分解为各步的KL散度与最后一项先验匹配损失之和 blog.csdn.net ：

$\mathcal{L}_{\text{ELBO}} = \mathcal{L}_{T}^{\text{prior}} + \sum_{t=1}^T \mathcal{L}_{t}^{\text{vlb}},$

其中，

$\mathcal{L}_{T}^{\text{prior}} = \mathrm{KL}\big(q(x_T\mid x_0)\,\|\,p(x_T)\big)$ ，即末步生成分布与先验正态的KL。
$\mathcal{L}_{t}^{\text{vlb}} = \mathrm{KL}\big(q(x_{t-1}\mid x_t, x_0)\,\|\,p_\theta(x_{t-1}\mid x_t)\big)$ ，表示在第 $t$ 步，模型预测的去噪分布与真实后验的差距。

通过对上述 $\mathcal{L}_{\text{ELBO}}$ 求期望并对 $\theta$ 求导，可进行梯度下降训练模型 $p_\theta(x_{t-1}\mid x_t)$ 。然而，Ho等人提出了一种等价但更简单的训练目标，即去噪得分匹配视角下的加权MSE损失 arxiv.org arxiv.org 。具体来说，在每一步 $t$ ，我们可以证明 $\mathcal{L}_{t}^{\text{vlb}}$ 与让模型预测“去噪”结果的均方误差是等价的。本质上有三种等价的预测目标：

预测 $x_0$ ：模型输出 $\hat{x}_0 = f_\theta(x_t,t)$ ，训练目标为最小化 $\| \hat{x}_0 - x_0\|^2$ 。
预测噪声 $\epsilon$ ：模型输出 $\hat{\epsilon} = g_\theta(x_t,t)$ ，利用正向推导的公式 $x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$ ，训练目标等价为 $\| \hat{\epsilon} - \epsilon\|^2$ 。
预测得分 $\nabla_{x_t}\log q(x_t|x_0)$ ：这等价于预测出输入 $x_t$ 中信号与噪声的比值，也与上述两者线性相关。

实践中，第2种方式（直接预测噪声）最为常用 blog.csdn.net 。当采用简单权重配置时，优化目标可进一步简化为对所有 $t$ 的期望均方误差：

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{x_0,\epsilon,t}\Big[\| \epsilon - \epsilon_\theta(x_t,t) \|^2\Big],$

其中 $\epsilon_\theta(x_t,t)$ 为模型预测的噪声。Ho等人发现直接优化 $\mathcal{L}_{\text{simple}}$ （即对每个 $t$ 均等加权）能够生成更高质量的样本，而优化严格的ELBO损失则会更重视低噪声阶段、生成略差但对数似然更高 arxiv.org 。因此很多扩散模型采用 $\mathcal{L}_{\text{simple}}$ 作为训练目标，同时通过小幅调整权重在保持样本质量的同时兼顾模型对数似然性能。

得分匹配的视角：上述训练过程可从去噪得分匹配（denoising score matching）的角度理解。所谓“得分”指概率密度对输入的梯度 $\nabla_x \log p(x)$ 。扩散模型训练中，每个 $t$ 对应的目标事实上是在训练一个得分网络 $s_\theta(x_t,t) \approx \nabla_{x_t} \log q(x_t)$ ，使其逼近真实的被噪声污染的数据分布的梯度场 papers.baulab.info proceedings.neurips.cc 。Song和Ermon等人提出了等价的score-based生成模型框架：以多尺度噪声扰动的数据为训练集，用得分匹配方法学得每个噪声层次下数据分布的梯度，然后通过Langevin动力学或随机微分方程仿真，从纯噪声逐步采样生成数据 arxiv.org 。Ho等人的工作证明了扩散模型的变分训练目标与分数匹配训练在本质上是等价的，两者只是视角不同，但最终学到的模型可以相互转换 arxiv.org papers.baulab.info 。因此，扩散模型也常被称为score-based模型或得分基生成模型。这种联系使得扩散模型能够兼具概率模型（可计算对数似然）和得分匹配模型（便于逐步采样生成）的优点 pmh9960.github.io hojonathanho.github.io 。更进一步，Score-based模型的连续时间形式可被视为一种随机微分方程（SDE），通过数值解SDE或对应的概率流常微分方程（ODE）亦可生成样本 arxiv.org 。利用ODE形式，甚至可以精确计算扩散模型的对数似然，将其视作一种连续正则化流模型来评估密度 arxiv.org 。

1.3 扩散采样与优化策略

有了经过训练的反向条件分布 $p_\theta(x_{t-1}\mid x_t)$ ，我们即可从高斯噪声 $p(x_T)=\mathcal{N}(0,\mathbf{I})$ 出发进行采样：反向迭代地从 $t = T$ 到 $1$ 按照 $p_\theta(x_{t-1}\mid x_t)$ 采样得到 $x_{t-1}$ ，最终输出模型样本 $x_0$ 。该逐步去噪采样过程要求执行 $T$ 次网络推断，若 $T$ 较大（通常为数百到上千步），将带来较高的采样开销。为提高采样效率，近年来提出了多种改进策略：

DDIM： Denoising Diffusion Implicit Models (DDIM)是一种生成过程加速方法，它构造了与DDPM相同训练目标但非马尔可夫的采样过程 arxiv.org 。通过改变扩散轨迹，DDIM使采样步骤不再随机，而是确定性映射，从而允许以较少步数生成样本而几乎不损失质量。实验证明，DDIM可以在仅 $10\sim50$ 步迭代下生成高质量图像，比DDPM标准采样快 $10$ 到 $50$ 倍 arxiv.org 。此外，DDIM的确定性性质还支持在潜空间进行语义连续的插值，即对两张图像对应的中间噪声表示进行线性插值，然后通过DDIM解码，可得到具有语义平滑过渡的生成结果 arxiv.org 。
变步长采样： 原始DDPM采用线性或余弦降噪调度，有 $T\approx1000$ 步。Nichol等人发现可以在训练时学习每一步的噪声幅度（即学习 $\Sigma_\theta$ 或等价调整 $\beta_t$ 的策略），从而支持用跳跃步长进行采样 arxiv.org 。他们的方法使得在仅 $\sim100$ 步甚至更少情形下也能保持与1000步近似的生成效果，为实际部署提供了可能 arxiv.org 。
预测-校正（PC）采样： Song等人在score-based模型框架中提出了预测-校正方法 arxiv.org 。在每个采样步，将一个ODE或预测步骤（对应扩散反向预测）与若干个Langevin校正步骤相结合，以提高生成样本对真实分布的吻合度。该方法可以视为在每步使用少量额外的MCMC采样来“校正”模型误差，从而显著提升图像保真度，尤其是在步数较少时样本质量提升明显 arxiv.org 。
其它加速技术： 近期还有许多研究聚焦于扩散模型的加速采样，如Diffusion回声、DPM-Solver系列专用数值解法、以及通过知识蒸馏将扩散多步生成压缩为单步或少步生成等。这些方法通常可以在保质量的前提下，将扩散采样减少到几十步甚至一步，从而大幅缩小扩散模型与GAN在推理速度上的差距 arxiv.org arxiv.org 。

综上，扩散模型通过正向扩散/反向去噪过程的设计，实现了对数据分布的逐渐逼近生成。其训练可理解为在不同噪声水平上对数据进行得分匹配，而生成则对应沿着学到的“数据梯度场”逐步行走直至获得清晰样本。接下来我们将介绍扩散模型近年来的重要技术突破和改进方法。

2. 扩散模型的技术进展

自从扩散模型和score-based模型提出以来，在算法和应用上取得了一系列关键进展。研究者在提高模型生成质量、加速采样、支持条件控制、高分辨率生成等方面提出了众多创新方法。本节将按照发展脉络，介绍若干具有代表性的扩散模型变体和改进，包括Score-based生成模型、DDPM系列、DDIM、潜变量扩散模型（LDM）以及指导（guidance）策略等。

2.1 Score-based Generative Models 与 NCSN 系列

最初的score-based生成模型由Song和Ermon等提出。他们在2019年NeurIPS提出NCSN（降噪score匹配网络），通过对数据添加不同强度的高斯噪声并训练神经网络去预测各噪声水平下的score（即 $\nabla_{x}\log q(x)$ ），从而能够用Langevin动力学从噪声逐步生成样本 yang-song.net pmh9960.github.io 。这种方法不需要判别器，直接优化了score匹配目标。之后在2020年，他们将该框架推广到连续时间，提出了Score-Based SDE Model arxiv.org 。该模型利用一个Itô随机微分方程将数据分布逐渐扰动成噪声分布，并通过数值解反向SDE生成数据 arxiv.org 。在这一框架下，他们进一步引入了前述的预测-校正采样以及概率流ODE，使得模型既能生成高质量样本又能计算精确对数似然 arxiv.org 。值得注意的是，Song等人的工作统一了score-based模型与扩散概率模型的视角，证明两者本质等价 arxiv.org 。在无条件图像生成上，score-based模型率先取得了令人瞩目的结果：在CIFAR-10数据集上达到当时的新纪录Inception Score 9.89和FID 2.20 arxiv.org 。这是首次在严格非对抗训练下实现与GAN相媲美甚至更优的图像生成质量 arxiv.org 。此外，他们还展示了首次通过score-based模型生成 $1024\times1024$ 超高分辨率图像的能力 arxiv.org 。这些成果验证了score-based方法的潜力，也为扩散模型的发展奠定了基础。

2.2 DDPM：离散扩散概率模型的兴起

DDPM（Denoising Diffusion Probabilistic Model）由Ho等人在2020年提出 arxiv.org 。该模型与score-based方法异曲同工，但从概率模型角度出发，引入了上述的扩散过程和变分推导。DDPM通过对每一步的去噪过程进行参数化和训练，实现了高保真图像生成。他们的重要发现包括：将复杂的变分下界目标转换为简洁的均方误差损失进行训练，极大简化了实现难度 arxiv.org ；并且通过对不同 $t$ 项损失加权训练，可以在保持样本质量和计算对数似然之间取得平衡 arxiv.org 。在实验上，原始DDPM在小尺寸无条件图像生成上取得了当时最佳的FID成绩，例如在CIFAR-10上实现了FID 3.17，超过了同期GAN模型 arxiv.org 。在更高分辨率的256×256 LSUN教堂和卧室数据上，DDPM生成样本质量与ProgressiveGAN相当 arxiv.org 。这表明，无对抗训练的扩散模型也能在复杂分布上产生逼真图像。DDPM的成功引发了社区的广泛关注，证明了扩散模型作为新一类主流生成模型的可行性和前景。

2.3 DDIM：快速采样的扩散隐式模型

虽然DDPM生成质量高，但采样速度较慢。为此，Song等人在2020年提出了DDIM（Denoising Diffusion Implicit Models），以加速扩散模型的采样过程 arxiv.org 。DDIM的核心思想是：正向扩散过程中引入一定的非马尔可夫性，构造出一族与DDPM具有相同训练分布但采样轨迹不同的扩散过程，使得反向过程可以跳过部分随机性，从而实现更快的生成。具体地，DDIM引入一个确定性的采样映射：通过少量步长就能将纯噪声直接“隐式”还原为样本。实验显示，使用DDIM可以将原本需要1000步的采样减少到仅100步甚至50步，图像质量几乎无明显下降 arxiv.org 。在某些情况下，DDIM比DDPM快10～50倍地生成高质量样本 arxiv.org 。此外，DDIM还天然支持在扩散隐空间进行图像插值和编辑：由于采样过程是确定性的，一个给定的噪声可以对应一个确定图像，这意味着对两个图像执行扩散编码得到噪声表示，再线性插值这些噪声并应用DDIM解码，可得到具有两者混合特征的图像。这种隐式生成的特性拓展了扩散模型在连续变换和风格迁移等任务中的应用可能。

2.4 扩散模型的改进：高保真与引导

(1) 改进的模型架构与训练： 扩散模型提出后，很快有工作探索通过改进网络架构和训练细节来提升性能。Dhariwal和Nichol在其题为“Diffusion Models Beat GANs”的研究中，通过大量消融实验找到更优的U-Net网络架构（如增加通道、调整归一化方式等），使扩散模型在无条件图像合成的质量上进一步提升，成功全面超越当时最好的GAN arxiv.org 。他们还验证了模型性能可以随网络容量和训练计算量平滑提升，没有明显饱和，这表明扩散模型具有很强的可扩展性 arxiv.org 。此外，他们引入了精度和召回指标来比较扩散模型和GAN对数据分布的覆盖程度，发现扩散模型在保持高精度的同时，显著提高了召回率，也即更好地覆盖了真实数据的多样性 arxiv.org 。

(2) 学习方差与快速采样： 前文提及，Nichol等人在Improved DDPM中提出学习反向过程的方差 $\Sigma_\theta$ arxiv.org 。他们给出了推导证明，若允许模型学习每步的逆过程不确定性，可在采样时使用较大步长而不显著损失质量。这使得采样步数减少约一个数量级成为可能 arxiv.org 。具体来说，他们在CIFAR-10上用200步就达到了与1000步几乎相同的结果，在 $64\times64$ ImageNet上用256步即可媲美原始DDPM的性能 arxiv.org 。这一改进对于扩散模型的实际部署价值重大，因为采样速度提升十倍意味着扩散模型开始接近GAN的推理效率。OpenAI已开源了改进模型的代码实现 arxiv.org 。

(3) 分类器指导（Classifier Guidance）： 一个关键突破是将扩散模型与外部分类模型结合，从而引导扩散采样朝向特定条件。Dhariwal等人提出，在生成过程中使用一个针对带噪图像训练的分类器 $C(y|x_t)$ ，通过其对条件 $y$ （如类别标签）的梯度 $\nabla_{x_t}\log p(y|x_t)$ 来调整扩散反向更新方向 arxiv.org 。直观而言，模型在每步去噪时，不仅根据自身预测去除噪声，还顺着分类器提示的梯度稍微朝向期望类别调整。这一分类器引导方法能够在不改变扩散模型本身的情况下，实现条件图像生成，并且可灵活调节一个引导强度系数来在样本多样性和符合条件的准确性之间权衡 arxiv.org 。实验证明，使用适度的分类器引导，扩散模型在ImageNet类条件生成上大幅提高了图像保真度。例如，在ImageNet 256×256上，分类器引导的扩散模型FID达到4.59，相比未引导时的7以上有显著提升 arxiv.org 。在仅25步采样的极端情况下，仍能达到与BigGAN-deep相当的效果，同时分布覆盖率更好 arxiv.org 。

(4) 无分类器引导（Classifier-Free Guidance）： 虽然分类器引导效果惊人，但需要独立训练一个分类器模型。Nichol等人在GLIDE模型中提出了无分类器的引导方法，即直接在扩散模型中融入条件控制 arxiv.org 。具体做法是在训练扩散模型时，将一部分时间不提供条件（例如文本描述），让模型学习在无条件情况下也能生成，从而得到同时具备有条件和无条件能力的模型。采样时，通过将带条件预测和不带条件预测线性组合，达到类似于分类器引导的效果 arxiv.org 。这种方法避免了训练额外的分类器，被称为“classifier-free guidance”。GLIDE应用该技术在文本引导图像生成中取得了卓越成果：使用3.5亿参数的扩散模型，在MS-COCO等数据集上的图文匹配度和照片真实感都超过了同时期OpenAI的DALL-E模型 arxiv.org 。人类评估更偏好GLIDE+引导的结果而非DALL-E（后者需要CLIP打分重排以提高质量） arxiv.org 。无分类器引导现已成为扩散模型条件生成的标配方案，包括后续的Imagen、Stable Diffusion等模型均采纳了这一策略，以兼顾生成质量和计算效率。

2.5 Latent Diffusion Models：高分辨率与高效生成

随着扩散模型在图像生成质量上赶超GAN，如何生成高分辨率大尺寸图像以及提高训练采样效率成为新的挑战。传统扩散模型直接在像素空间操作，高分辨率意味着更多像素维度，导致训练和采样的计算代价迅速攀升（例如 $256\times256$ 图像就有 $65, 536$ 维）。2022年，Rombach等人提出潜变量扩散模型（Latent Diffusion Models, LDM），有效地缓解了高分辨率生成的计算负担 arxiv.org arxiv.org 。

LDM的核心思想是将扩散过程从像素空间转移到一个经过压缩的低维潜空间。具体地，他们使用预训练的感知损失优化的自编码器，将图像映射到比特数远小于像素的潜在表示 $z$ ，再在该潜空间上训练扩散模型生成 $z$ arxiv.org。解码时，再通过自编码器的解码器将生成的 $z$ 还原为图像。由于自编码器保留了大部分感知细节而舍弃了一些无关高频信息，扩散模型可在潜空间中更高效地操作：计算开销显著降低，而且模型专注于生成全局结构和粗粒细节。实验结果显示，在相似计算成本下，LDM在多个任务上达到了与像素扩散相当甚至更好的效果 arxiv.org 。例如，LDM在ImageNet无条件生成、图像修复（inpainting）等任务上实现了新的SOTA结果，同时相比像素扩散将计算资源降低了一个数量级 arxiv.org 。

另一个创新是，LDM在模型架构中引入跨模态的自注意力机制，使其可以方便地接受多种条件输入 arxiv.org 。例如，通过在U-Net中加入文本嵌入的跨注意力，模型能够被文本描述引导，从而生成与文本匹配的图像。这一设计为后来的文本到图像扩散模型（如Stable Diffusion）奠定了基础。

LDM的出现使得在消费级硬件上训练和运行高分辨率扩散模型成为可能。例如，512×512分辨率的文本生成图像模型Stable Diffusion就是基于LDM架构训练的，其开源发布引发了广泛的应用热潮。总之，Latent Diffusion成功地在计算开销与生成逼真度之间取得了近乎最优折衷，大幅提升了扩散模型在高分辨率场景下的实用性 arxiv.org 。

2.6 其他重要进展

除了上述主要方向外，还有一些值得一提的技术进展：

结构化扩散与控制生成： 扩散模型天然适用于自由生成，但在需要严格满足结构约束的任务中（如图像分割到图像、草图到图像），也有相应扩展。例如，利用条件掩码或显式条件嵌入，可以约束扩散过程满足所给定的部分图像内容，实现图像完形补全、图像融合编辑等高级功能。最近的ControlNet方法进一步探索在扩散U-Net中注入预训练的条件网络，以精确控制生成图像符合指定的边缘图、姿态或深度图等条件，从而将扩散模型引入可控生成的新阶段。
一致性模型： 这是2023年提出的新思路，不再显式模拟整个扩散链，而是训练模型直接学习从任意噪声级别一跃还原干净图像的映射（满足一定一致性条件）。在推理时可用大步长迭代甚至单步完成生成。初步结果显示一致性模型可以在极低步数下实现接近扩散模型的样本质量，其核心原理与扩散模型相关联但减少了采样步骤，是值得关注的后续方向。

综上，扩散模型在理论和算法上经过多轮革新，已经发展出一套完善的框架。从初始的score matching理论，到离散扩散、隐式采样、指导策略，再到潜空间扩散和控制生成，这些进步使扩散模型成为性能卓越且灵活多能的生成模型。下一节我们将系统比较扩散模型与其他主流生成模型的异同，加深对其特点的理解。

3. 扩散模型与其他生成模型的对比分析

扩散模型的兴起不可避免地要与GAN、流模型、VAE等经典方法相比较。本节从生成质量、多样性、训练难度、采样效率、理论性质等方面，对扩散模型和其他主流生成模型进行分析总结。

3.1 与 GAN 的比较

生成质量和多样性： 近年来扩散模型在图像生成质量上实现重大突破，已经在多个任务上超越GAN的表现 arxiv.org 。例如，在ImageNet 256×256上，扩散模型配合引导可达到FID 4.59，优于BigGAN-deep等GAN模型的水平 arxiv.org 。更重要的是，扩散模型往往具有更高的样本多样性和更好的模式覆盖。GAN常面临模式崩溃问题，倾向于生成分布中部分高概率样本而忽略其他模态；相较之下，扩散模型由于没有对抗训练的压力，能更全面地学习数据分布。研究通过精度-召回指标验证了这一点：在相同精度下，DDPM的召回率（覆盖度）明显高于GAN arxiv.org 。这意味着扩散模型生成的样本既逼真又多样，更接近真实数据分布 arxiv.org 。

训练稳定性： GAN训练需要在生成器和判别器之间博弈，常出现训练不稳定、模式崩溃或梯度消失等问题，需要精心的技巧（如谱归一化、梯度惩罚等）才能成功训练。而扩散模型的训练是普通的带噪自编码回归任务，无对抗过程，收敛稳定可靠。在实践中，训练一个扩散模型几乎没有GAN那样需要反复调整超参数和网络结构来避免崩溃的烦恼。这使得扩散模型的研究和应用门槛更低，更容易复现和扩展。

评价指标： 在常用的图像生成评测指标上，扩散模型与GAN各有千秋。GAN通常直接优化感知质量，典型模型如StyleGAN2在FFHQ人脸上FID极低，样本质量极高。但扩散模型借助引导等技术在越来越多数据集上追平甚至超过GAN的FID。例如，Imagen模型在COCO文本生成上达到FID 7.27，已经优于很多GAN基的方法 openreview.net 。另外，人类评价方面，最近Diffusion模型生成的样本经常被认为比GAN更真实或更符合条件（如文本），比如Imagen和Stable Diffusion在文本对图像对比中显著胜过GAN+CLIP的方法 papers.nips.cc paperswithcode.com 。总体趋势是，扩散模型正在全面缩小与甚至反超GAN在各项指标上的差距。

采样效率： GAN的一大优势在于采样只需一次前向网络传播，即可以瞬时生成图像；而经典扩散模型需要数百到上千步迭代，导致采样耗时较长。不过，随着前述采样加速技术的发展，这一劣势正在被弥补。诸如DDIM、模型蒸馏等方法可以将采样步数压缩到几十甚至一步，Huang等人在2023年的一致性模型工作中更是几乎做到单步采样逼近扩散模型质量。因此，可以预见扩散模型的采样速度将不断提升，未来有望接近GAN的实时生成能力。

理论理解和控制性： GAN通过判别器学习难以直接评估模型概率密度，属于隐式分布模型；扩散模型则是明确的概率模型，可以计算对数似然、渐进推导分布演化，因而在理论上更易分析。在可控生成方面，GAN通常需要专门的结构（如将标签嵌入到生成器，或使用对比学习等）才能进行条件生成；扩散模型由于其概率框架，可以方便地通过条件概率和引导的方式进行控制。例如，文本嵌入可以通过跨注意力模块直接送入扩散模型，使之成为强大的文本到图像生成器，其架构修改相对直接 arxiv.org 。而GAN要达到类似效果往往需要预训练词嵌入和复杂的多任务损失，很难达到扩散模型目前的文本对图像生成效果。

3.2 与 VAE 的比较

VAE作为典型的潜变量生成模型，通过优化证据下界进行训练，可以明确估计数据密度并以单步采样生成样本。传统VAE生成样本模糊，细节差，主要因为其客观函数倾向于牺牲图像清晰度来获得更高的似然（受高斯假设限制）。扩散模型同样优化变分下界，但通过引入多个渐进的潜变量（扩散步骤）克服了单次映射的瓶颈，更接近数据分布。从某种角度看，DDPM可以视作一种极端的VAE，其潜变量 $x_{1:T}$ 维数和复杂度远高于原空间，从而换取最终生成图像质量的提升。扩散模型没有明显的“模糊”问题，生成样本更锐利逼真。此外，VAE的后验近似（通常是因式高斯）限制了表达能力，而扩散模型的逐步推断后验本质上灵活复杂得多。

另一方面，扩散模型的多步生成虽然质量高，但代价是生成过程复杂，不像VAE那样一步完成。这体现了生成模型的典型权衡：VAE追求推断高效但样本质量欠佳，扩散模型追求样本质量和分布逼近但生成慢。幸运的是，扩散模型可通过潜空间、蒸馏等手段逐渐弥补速度问题，而直接提升VAE样本质量却相对困难。因此在高保真图像生成任务中，扩散模型已基本取代传统VAE成为更有前景的路线。不过在某些需要快速推理的应用（如实时视频每帧生成），如何融合VAE的速度优势和扩散的质量优势，仍是潜在的研究方向。

3.3 与流模型的比较

流模型（Flow-based Models）通过可逆变换精确建模数据密度，典型如RealNVP、Glow等。它们的特点是可以计算精确对数似然，且生成采样只需一次前向计算。然而，为了保持变换可逆，流模型对网络结构有严格限制（例如分块耦合变换、雅可比行列式易计算），这限制了模型表达能力。与此相比，扩散模型将求解似然的难题转化为多步过程的近似，使每一步都可以使用灵活的网络（如复杂U-Net）。尽管不能直接计算精确likelihood，但通过概率流ODE也可逼近计算对数概率 arxiv.org 。从结果上看，扩散模型的log-likelihood通常稍逊于流模型顶尖水平。例如，在CIFAR-10上，Flow模型Glow的负对数似然约为3.35 bits/dim，而score-based扩散模型报告约2.99 bits/dim arxiv.org （更低更好），已经相当接近甚至更优。另一方面，流模型的样本质量（FID）往往较差，比如Glow在CIFAR上的FID在40以上，而扩散模型可低至2～3 arxiv.org 。流模型生成的图像往往带有轻微的噪声和模糊，这是因为纯对数似然优化并不保证感知质量最佳 arxiv.org 。扩散模型可以权衡似然和感知质量，从而在保持较好似然的同时得到极佳的感官效果 arxiv.org 。

计算代价： 流模型一次性生成图像，但因为每层变换需保持可逆，参数量和计算量实际上并不小，例如Glow使用1.5亿参数三层级联在8块GPU上训练数周。而扩散模型虽然需要迭代采样，但单步网络相对轻量且易于并行，加上后来步数压缩，实际运行效率已在改进。总的来说，当追求精确概率密度时，流模型有其价值；但在高质量样本合成方面，扩散模型明显更胜一筹，因而研究重点也逐渐从flow转向扩散。

3.4 与自回归模型的比较

自回归模型（如PixelCNN、ImagenetTransformer等）通过逐像素或逐块建模条件概率，也可以得到高质量样本和可计算似然。它们的优势是生成过程简单（按固定顺序采样即可）且密度估计精确。但自回归模型采样同样无法并行（因为下一像素依赖上一像素），对于大图像甚至比扩散更慢。此外，自回归模型通常在捕捉全局一致性方面不如扩散或GAN，因为逐点预测容易局部最优，不容易整体规划。扩散模型通过全局场景逐步细化，能更好地保持大尺度结构，避免像素CNN那样可能出现的局部不一致现象。近年兴起的transformer自回归模型（如DALL-E、VQ-GAN+Transformer）通过先生成粗略离散码再精细展开，也是在引入层次结构，某种程度上与扩散的逐步细化异曲同工。总体而言，在图像生成任务中，自回归模型目前并非主流，扩散模型在综合性能上占优；但在某些离散序列（如文本、DNA序列）生成中，自回归方法仍是不可替代的强有力基线，未来可能出现扩散与自回归结合的新模型来发挥各自所长。

综上所述，扩散模型相较于其他生成模型的主要优点在于：生成质量高、稳定性好、多样性强、理论可分析；主要缺点在于采样较慢但这一点正快速改进中。可以预见，随着硬件和算法的发展，扩散模型有望在更多领域取代GAN和流模型成为首选的生成框架。而不同范式的融合（如引入判别器辅助训练扩散模型，或将扩散步骤融入自回归模型）也是潜在的研究方向。

4. 图像生成的应用实例与最新研究

扩散模型在图像生成领域展现出广阔的应用前景。本节我们讨论扩散模型在若干典型图像生成任务中的应用和最新研究成果，包括无条件图像生成、条件（类条件或文本条件）图像生成，以及图像到图像的生成与编辑任务。

4.1 无条件图像生成

无条件图像生成是检验生成模型的基本任务。扩散模型自提出以来不断刷新这方面的记录。从小尺度的CIFAR-10到中高分辨率的ImageNet，扩散模型的FID等指标已全面赶超GAN。早期Score-SDE模型在CIFAR-10上达到FID 2.20，IS 9.89的成绩 arxiv.org ，首次超过当时最好的GAN（如StyleGAN2）的水平。之后，改进的DDPM在CIFAR-10上FID 3.17，精度-召回曲线优于GAN arxiv.org 。在更复杂的ImageNet 128×128上，Dhariwal等的模型取得FID 2.97，128分辨率下首次将无条件生成FID降到3以内 arxiv.org 。即使在更高的512×512分辨率，无条件扩散模型也达到FID ~7.7，接近真实图像分布的差异（参考，512分辨率下传统GAN如BigGAN-deep的FID约为9-10） arxiv.org 。值得一提的是，扩散模型生成的样本往往质量稳定，没有肉眼可察的模式崩溃现象，这在无条件场景尤为突出——随机生成的一组图像通常多样且各具细节。

大模型和大数据训练也进一步提升了无条件扩散效果。Imagen等模型报道，将模型参数从数亿提升到十亿量级并使用更多训练数据，无条件生成质量还能继续提高，暗示尚未达到上限。此外，通过潜变量扩散（LDM），可以在计算可控的情况下生成 $1024\times1024$ 甚至更大尺寸的无条件图像，并保持细节丰富。

综合来看，在无条件图像生成任务上，扩散模型已经成为当前性能最优的方法之一。它们为进一步提升生成逼真度提供了可靠途径，并且其稳定训练特性便利了研究者训练更大规模模型来探索上限。

4.2 类别条件和文本条件的图像生成

类别条件生成： 扩散模型可以自然地扩展到类别标签等简单条件。典型做法是在模型中注入标签嵌入（如通过concat或FiLM方式）或使用分类器/无分类器引导。在ImageNet类别条件生成上，带指导的扩散模型取得了迄今最好的结果。例如，通过分类器引导，256×256 ImageNet生成的FID降低到4.59 arxiv.org ，远好于BigGAN-deep报告的FID约7.4。这意味着扩散模型不仅在无条件情况下领先，在有条件（有监督）生成上也超越了GAN的最佳水平 arxiv.org 。人眼主观评价也支持这一点：有研究比较了带指导扩散模型与BigGAN在ImageNet各类别样本的清晰度和多样性，结果表明扩散模型生成的图片往往细节更丰富，类别相关的特征表达也更加准确。

文本条件生成（Text-to-Image）： 文本到图像合成是近年极受关注的任务。扩散模型在这一领域的成功尤为瞩目。2021年底OpenAI发布的GLIDE模型，证明了中等容量的扩散模型结合无分类器引导，可以生成高度逼真且与文本描述匹配的图像 arxiv.org 。在对比实验中，GLIDE生成的样本在视觉逼真度和文本相关性上都胜过更早期的Transformer模型DALL-E arxiv.org 。随后，2022年出现了一系列基于扩散的文本生成图像模型：

DALL·E 2（CLIP引导扩散）： OpenAI第二代模型采用了分两阶段的方法：首先一个Prior扩散模型将文本编码生成图像嵌入（CLIP图像向量），然后一个Decoder扩散模型将该图像嵌入解码为图像 arxiv.org ar5iv.labs.arxiv.org 。这种层级设计有效结合了CLIP的跨模态知识和扩散模型的生成能力。DALL-E 2大幅提升了生成图像的质量和分辨率，并能较好地理解复杂文本描述。其样本在复杂场景合成上达到新高度，显著优于GAN或VQ-VAE等方法。据报道，人类评估中DALL-E 2样本在文本对齐和图像质量上均优于同期的GLIDE和CogView等模型。
Imagen（大语言模型+扩散）： 谷歌提出的Imagen模型直接将预训练的大型语言模型（如T5-XXL）产生的文本Embedding输入扩散模型，并采用了级联式扩散（先生成低分辨率图像再逐步超分） arxiv.org 。Imagen在COCO基准上取得了迄今最佳的FID 7.27（未在COCO数据上训练情况下） openreview.net 。更引人注目的是，在谷歌提出的DrawBench文本描述集合上，Imagen的样本在多个维度的质量均被人类评价为优于同时期的DALL-E 2 papers.nips.cc 。Imagen的成功表明，语言理解能力是文本生成图像的关键瓶颈之一：使用更强的文本编码器（T5）显著改善了生成对复杂描述的理解与呈现能力 arxiv.org 。Imagen展示出惊人的生成效果，例如输入一段复杂场景描述，模型能够准确地合成出包含多种元素、符合语义且照片般真实的图像，其中细节和风格甚至达到乱真的程度。
Stable Diffusion： 这是一款基于LDM并结合文本条件的扩散模型，由Stability AI发布（2022年8月开源）。它在LAION-5B图文数据上训练，能够在512×512分辨率生成高保真图像。Stable Diffusion的开源极大推动了文本生成图像技术的普及和应用。用户只需一块GPU即可运行推理，生成质量媲美Imagen和DALL-E 2。在实际应用中，Stable Diffusion被用于创意设计、艺术绘画、影视模型制作等领域，并催生了大量衍生模型和工具（例如各种细领域微调模型、ControlNet控制形状、文本反转等增强技术）。可以说，Stable Diffusion将扩散模型的研究成果真正带到了大众面前，掀起了“AI作画”的热潮。

综上，在文本到图像生成任务中，扩散模型目前占据主导地位。从研究前沿（Imagen、DALL-E 2等封闭模型）到开源社区（Stable Diffusion等），无不采用扩散模型作为核心引擎。这充分验证了扩散模型在复杂条件生成任务中的强大能力。最新研究还在探索如何让生成更加可控（如加入更多条件约束）以及提升极高分辨率下的效果，相信未来会有更多突破。

4.3 图像到图像的扩散生成与编辑

扩散模型除了从随机噪声生成图像之外，也被广泛应用于图像到图像的生成和编辑任务，即给定一张（或几张）输入图像，生成经过某种改变的输出图像。此类任务包括图像修复（inpainting）、缺失区域补全（outpainting）、图像超分辨率、颜色填充、风格转换、图像编辑等。

扩散模型在这些任务上具备独特优势：由于其逐步生成性质，可以在保留输入条件的基础上灵活引入随机性和平衡细节。例如，扩散模型可以在保持已知像素不变的同时，对缺失区域反复尝试多种合理填充，直到找到全局融合度高又真实的内容。这种能力远超简单的回归模型，也比GAN更稳定可控。

1）图像修复与补全： 扩散模型可以通过在输入图像已知区域和噪声的组合上条件采样，实现图像修复（将被涂抹或损坏的区域重建）。例如，GLIDE模型在训练时就包括了文本引导的图像修复能力：将待修复图像作为条件输入，模型可以根据文本描述填入缺失部分 arxiv.org 。Latent Diffusion的论文也报告了其在图像inpainting上的SOTA结果 arxiv.org 。无条件情况下，扩散模型能够根据周围像素自洽地补全内容，效果比传统算法或GAN更逼真。与此同时，扩散模型能为同一缺失区域提供多样化的重建结果（通过改变随机种子），满足创意上的不同需求。

2）超分辨率与图像增强： 扩散模型还被用于图像超分辨率（即提升图像清晰度和分辨率）。SR3是谷歌提出的一个扩散式超分模型，将低分辨率图像逐步上采样生成高清图像 arxiv.org 。它在人脸和自然图像超分任务上取得极好效果，FID明显优于GAN基线。类似地，扩散模型也可用于JPEG去压缩、去噪等图像增强任务。Saharia等人的Palette框架统一了这些图像到图像翻译任务，证明单一扩散模型经过适当条件设计可以胜任多种图像修复/变换工作，并且在颜色填充、去马赛克等任务上全面超越GAN和普通回归方法 arxiv.org 。例如，在Palette论文的比较中，同样的图像去噪任务，Diffusion生成的结果在细节和真实性上均优于GAN基线 arxiv.org 。

3）图像编辑与转换： 扩散模型强大的生成能力也可用于交互式的图像编辑场景。比如，用Stable Diffusion的变体可以实现根据文本编辑现有图像：通过将图像和文本一起输入模型，配合一定的处理（如显著区域的引导），模型可以对图像做出相应修改，如“把天空变成黄昏色调”或“让人物戴上一副眼镜”等。这类应用利用了扩散模型的条件灵活性和对细节的把控能力，实现了以前GAN很难做到的细粒度编辑。现在已有工具（如Diffusion-based Photoshop插件等）将这些技术应用于实际图片编辑工作流。

4）跨模态生成： 扩散模型还可以支持不同图像模态之间的转换，例如根据一张素描生成对应的真实感图像，或由语义分割图生成逼真场景图像。这通常通过将输入模态编码为某种张量（如将分割图转为one-hot图层）并与噪声拼接送入扩散模型实现。早期已有类似Pix2PixHD的GAN方法，现在扩散模型通过条件扩散也能实现且质量更好，特别在保持输入结构的同时丰富纹理方面具有优势。近期的ControlNet等方法甚至允许我们在扩散模型中锁定一部分预训练权重以严格遵循结构条件，进一步提高了这类任务的输出准确度。

总体而言，扩散模型正在成为图像到图像翻译和编辑任务的新范式。它们无需针对每个任务设计专门损失函数或网络结构，只需通过调整条件设计并利用同一扩散模型框架，即可在各种图像转换任务上取得媲美甚至超过GAN的效果 arxiv.org 。这凸显了扩散模型的通用性和强大潜力。

5. 视频生成的应用实例与最新研究

除了静态图像，扩散模型也被积极拓展用于视频生成领域。视频生成相比图像更具挑战，因为需要同时保证空间帧内质量和跨帧的时间一致性。传统GAN用于视频容易出现帧与帧内容不连续或整体模糊的问题。扩散模型的逐步生成思想，为建模视频提供了一条新路。本节介绍扩散模型在无条件视频生成、文本生成视频以及视频补全预测等方面的应用和进展。

5.1 无条件视频生成

无条件视频生成要求模型从随机噪声出发，合成一段逼真的随机视频序列。难点在于生成不仅单帧清晰，还要多帧连贯。Ho等人在2022年提出了Video Diffusion Models (VDM)，这是将2D图像扩散模型扩展到时间维度的先驱工作 arxiv.org 。他们采用了一个“时空U-Net”网络，输入包含时间维度，即将视频视作一个 $T$ 帧长度的“卷”一起处理。具体来说，在空间上使用2D卷积，在时间维度使用1D卷积或注意力，从而在模型中捕获时序相关性 arxiv.org 。训练仍类似图像扩散：对视频逐帧添加随时间相关的噪声，模型学习逆过程去噪。Ho等人发现，通过联合使用图像数据和视频数据训练，可以有效降低梯度方差、加速收敛 arxiv.org 。这表明，对于视频扩散模型，适当利用大量的静态图像数据有助于学习更好的空间表示，从而提升生成质量。同时，他们还提出了时空分辨率延展的方法：即先生成短视频或低分辨率视频，再逐步扩展帧数或提高清晰度，类似于级联扩散在时间轴上的应用 arxiv.org 。这一技术令模型能够生成更长、更高分辨率的视频超出原始训练范围。

VDM在多项视频生成基准上取得了当时最佳结果 arxiv.org 。例如，在常用的UCF-101人体动作数据集无条件生成上，他们达到了新的SOTA的Frechet视频距离（FVD）分数，清晰度和连续性优于之前GAN模型。人眼观察也证明VDM生成的视频在动态连贯性上有显著提升，角色动作不会再像一些早期方法那样突然卡顿或畸变。同时，他们还展示了模型可以生成128×128分辨率、长达数秒的视频短片，其中场景复杂度和运动流畅性在当时属于突破。

另一项工作MCVD（Masked Conditional Video Diffusion）由Voleti等人提出 arxiv.org 。他们将视频扩散框架统一用于视频预测、无条件生成和插值三类任务。通过对输入输出帧添加遮罩标志，MCVD模型可以灵活地接受不同已知/未知帧的组合，并进行相应生成。这种“一模多能”的设计令人印象深刻：单一模型在预测下一个帧、无条件生成新序列、在已有帧中插入过渡帧等任务上都取得了优异效果 arxiv.org mask-cond-video-diffusion.github.io 。这表明扩散模型在视频任务上具有高度的通用性和可控性，远超传统GAN或特定架构。

总的来说，无条件视频生成已经被扩散模型提升到新的水平。尽管生成的视频仍有限于较低分辨率（如 $64^2$ 或 $128^2$ ）和短时长（几秒内），但质量和连续性相比以往都有长足进步 arxiv.org 。未来随着模型增大和算力增强，我们有望看到扩散模型生成更长、更高清的视频序列。

5.2 文本生成视频

文本描述生成视频（Text-to-Video）是视频生成中更富挑战性的任务，需要模型理解文本语义并转换为一系列动态视觉画面。2022年下半年，这一领域出现多项突破性的扩散模型工作：

Imagen Video： 谷歌提出的Imagen Video系统将Imagen图像扩散拓展到视频级 arxiv.org 。它采用级联视频扩散架构：首先生成一个低分辨率低帧率的视频粗骨架，然后通过一系列时空超分模型逐步增加分辨率和帧率 arxiv.org 。特别地，他们设计了交替的空间、时间超分模块，以高效地扩展视频维度 arxiv.org 。Imagen Video利用了与Imagen图像模型相同的强大文本编码器（T5）以及扩散生成基础。结果，Imagen Video能够合成 $128\times768$ 分辨率、128帧（约5秒@24fps）的视频 arxiv.org 。这些视频在清晰度、内容丰富度、运动连贯性上都达到了前所未有的高度，很多场景看起来近乎真人拍摄。Imagen Video报告的样本展示了例如“一只柴犬在骑滑板”的视频，狗的动作和背景环境都与文本匹配且运动自然。这表明该模型具备相当的世界知识和可控度，不仅能生成高保真画面，还能在多帧中保持逻辑一致 arxiv.org 。此外，他们运用了渐进蒸馏技术将采样速度提升数倍，同时结合classifier-free guidance确保文本内容的高匹配度 arxiv.org 。综合评价，Imagen Video的输出在多风格、多场景下均达到了很强的真实性和多样性 arxiv.org 。
Make-A-Video： Meta AI推出的Make-A-Video方法采用了不同的策略 arxiv.org 。他们没有使用配对的文本-视频数据进行训练（因为这种数据稀缺），而是充分利用图像和无标注视频 arxiv.org 。训练分两阶段：先学会“世界长什么样”（图像与文本对，提高静态渲染能力），再学会“世界如何运动”（无标签视频，提高动态建模） arxiv.org 。Make-A-Video通过这种迁移学习，大幅减少了训练需求 arxiv.org 。模型架构上，他们引入了类3D的时空卷积以及时间注意力，将预训练的图像扩散模型扩展为视频模型，并在采样时采用了分解时序生成、帧插值和超分的流水线 arxiv.org 。尽管没有显式的文本-视频训练，Make-A-Video依然展现出惊人的文本引导视频生成能力。其生成样本涵盖卡通、真实影像、艺术画风等多种风格，并可以表现复杂的动态场景。作者声称Make-A-Video在清晰度、时序一致性和文本符合度等各方面均达到当前最佳水平 arxiv.org 。特别地，由于继承了图像扩散模型的多样性，生成视频在画面风格和内容方面非常丰富。例如，一句描述可以生成不同取景或不同细节的多个视频，体现了模型的多样性 arxiv.org 。Make-A-Video展示了不使用成对数据也能训练强大的文本到视频生成模型的可能，这对资源受限的情况下具有重要意义。
其余工作： 与此同时，其他一些文本生成视频扩散模型也相继问世，例如Phenaki和Dreamix等。这些模型探索了更长时间范围的视频合成（Phenaki旨在生成分钟级视频，通过连续条件扩散实现），以及基于现有视频进行文本驱动的编辑（Dreamix使用文本引导对给定视频风格化或改变内容）。这些研究进一步拓宽了扩散模型在视频生成领域的应用范围。

尽管文本到视频扩散模型目前仍存在一些局限，如分辨率较低（通常不超过 $512^2$ ）、运动复杂性有限、偶尔存在失真帧等，但其进展速度惊人。从无到有，仅一年内就从不能生成视频发展到可以生成短片并达到肉眼可观赏的程度。这凸显了扩散模型的强大可扩展性。可以预见，未来几年，随着更大模型（参数规模百亿级）和更高效训练方法出现，文本生成视频的质量和长度会进一步提升，逐步接近商用水平。这将为内容创作、影视制作等领域带来革命性工具。

5.3 视频预测与插值

扩散模型在视频上的应用不局限于从无到有的生成，还包括基于已有视频片段进行预测或插补。例如，给定视频起始若干帧，预测后续可能发生的情景（视频续写）；或在稀疏给定的关键帧之间填充平滑过渡的视频帧（视频插值）。这些任务对时间一致性的要求更高，因为输入帧提供了“锚点”。

扩散模型可通过在条件输入帧的基础上对未来帧添加噪声并去噪来实现预测。如前述MCVD模型，通过对过去帧作为条件、未来帧作为目标的设定，训练一个扩散模型 arxiv.org 。在预测过程中，将已知帧固定不变，仅对未知帧区域采样即可。这类似于图像补全，但扩展到时间维度。实验表明，扩散模型预测的视频不仅帧与帧衔接自然，还可以保留较高的灵活性，生成多个不同走向的未来。这对于处理不确定性很大的视频预测（如物体可能向不同方向运动）尤其宝贵。

视频插值方面，扩散模型也取得了很好的效果。通过输入首尾帧，模型可以在中间时间点逐步推断可能的过渡画面，并输出连贯的视频。与传统的光流插值或GAN插值不同，扩散模型的结果通常更具现实感，因为它利用了数据分布学到的运动模式，而不仅仅是做线性内插。尤其在存在遮挡、新物体出现的情况下，扩散模型可以基于学到的先验合理补全。

总的来看，无论是视频的自由生成还是带条件的预测、插值，扩散模型都展示出了强大的能力和灵活性。这使它有潜力成为一个通用的视频生成框架，统一处理多种任务。未来可能出现一个单一大模型，通过不同条件输入（如无输入、首帧、首尾帧、文本等）就能执行从无到有生成、续写、插值、编辑等任意视频生成任务，实现视频领域的“生成万能模型”。

6. 实验评测与性能分析

为全面了解扩散模型的性能表现，本节我们结合文献中的实验结果和数据，讨论扩散模型在图像和视频生成任务中的定量评测结果，并与其他模型进行对比。

6.1 图像生成评测

FID（Frechet Inception Distance）： FID是衡量生成图片与真实图片分布差异的常用指标。扩散模型近年的FID成绩屡破纪录。在无条件CIFAR-10上，最早的Score-SDE模型达到FID ~2.20 arxiv.org ，Improved DDPM报告FID 2.92 arxiv.org （已非常接近真实数据之间的差异下限）。GAN方面，最佳如StyleGAN2在CIFAR的FID约为2.42 arxiv.org 。可以看出扩散模型已至少平齐甚至略有超越GAN。ImageNet上，Dhariwal等的类条件扩散在128×128、256×256、512×512上FID分别为2.97、4.59、7.72 arxiv.org 。相比之下，同分辨率下BigGAN-deep的FID分别约为4.04、7.30、11.73（据其论文和后续分析），可见扩散模型在各尺度均取得更优结果 arxiv.org 。进一步，通过上采样扩散还可将256提升至FID 3.94，将512提升至3.85 arxiv.org ，几乎追平128分辨率下的BigGAN，这在以前是难以想象的。对于图像文生图模型，在COCO数据上，Imagen的零样本FID达到7.27 openreview.net ，相比之下2019年的AttnGAN等早期文生图FID普遍>20，差距显著。总之，FID评价显示扩散模型生成分布与真实分布的差距正变得越来越小，很多情况下已优于GAN/自回归等方法。

Inception Score（IS）： 扩散模型的IS也保持高水平。在CIFAR-10上，Score-SDE取得IS 9.89 arxiv.org ，Improved DDPM约9.5，均高于GAN的最好水平（如SNGAN约8.5）。ImageNet上，由于类别众多通常不报告IS，而以FID和精度/召回替代。

精度-召回： Nichol等引入精度和召回评估生成分布覆盖情况 arxiv.org 。他们发现DDPM的精度和召回曲线明显优于GAN：在保持同等精度下召回更高，说明扩散模型生成的数据分布更完整地覆盖了真实数据模式 arxiv.org 。例如，在CIFAR上扩散模型召回率接近真实数据间对比，而GAN往往偏低。这佐证了扩散模型较少模式崩溃的问题。

对数似然： 虽然扩散模型主要追求感知质量，但其对数似然性能也值得关注。Ho等人报告DDPM在CIFAR-10上的负对数似然约为3.75 bits/dim，优化高斯假设可降至3.70左右，与当时最佳的自回归模型PixelCNN++ (2.92)仍有差距 arxiv.org 。但Song等的Score-Flow模型通过ODE计算似然，达到了2.99 bits/dim arxiv.org , 已非常接近PixelCNN++。Flow模型Glow为3.35 bits/dim，但FID很差 arxiv.org 。扩散模型可以在似然和FID上取得折中：比如Improved DDPM在不损失FID前提下把CIFAR似然降到3.1左右。总的来说，扩散模型的似然虽然未必最佳，但已经可与流模型、自回归模型相当，且远优于GAN（GAN无法直接计算似然，但若用估计方法，似然值通常很差）。

人类评价： 最终衡量生成质量的金标准是人类主观评价。多项研究表明，人类往往更偏好扩散模型的样本。例如，在文本生成图像对比中，Imagen相比DALL-E 2取得了明显的人选胜率优势 papers.nips.cc ；GLIDE相比DALL-E 1也是人类更喜欢前者 arxiv.org 。在无条件图像方面，一些用户研究显示，扩散模型（特别是有引导的）生成的ImageNet图像在逼真度上已可与真实图混淆，甚至迷惑评审。特别是在细节纹理、背景完整性等方面，扩散模型的精雕细刻优势使其样本往往更具真实感，而GAN有时出现的不自然瑕疵在扩散模型样本中较少见。需要注意的是，人类评估也发现扩散模型有时会过于“保守”，即趋向生成平均样本而非极端多样的样本——这可能是无分类器引导强度过高导致。但通过适当降低guidance，扩散模型也能生成风格多变的样本而不损失质量。

6.2 视频生成评测

评估视频生成通常使用FVD（Frechet Video Distance）等指标，该指标类似FID但采用3D Inception网络提取特征衡量视频分布差异。Ho等人的VDM在UCF-101无条件生成上的FVD显著低于之前基于GAN的方法（具体数值如：VDM的FVD约数百，之前VGAN等通常上千）。此外，在SkyTimelapse等视频集上，VDM也创造了最好记录。一些工作还报告Inception Score for Video (ISV)，扩散模型生成的视频ISV也较高，表明生成的视频具有清晰的动作语义可被分类网络识别。

更重要的是时间一致性和感知质量的评估。研究者往往通过用户调查来让人评分视频的流畅度和真实度。VDM的用户测试显示，受试者更偏好扩散模型生成的视频而非GAN视频，认为前者更平滑逼真。文本到视频方面，目前缺乏公开统一的量化指标，因为文本描述的多样性不好量化。但Imagen Video等通过展示大量案例并进行人类打分，证明了他们生成的视频在文本相关性上达到90%以上的准确描述率，在画质上接近真实视频缩小尺寸后的水平。

需要指出的是，视频生成的评测难度很大，不仅要看单帧质量也要考虑长时间依赖。当前的指标可能还不完善。因此，定量结果更多是表明扩散模型已经能生成合理（reasonable）的视频序列，而非完全乱序或崩溃的输出。相对于图像，视频领域扩散模型尚有提升空间，但已有的结果足够令人鼓舞。

6.3 计算开销与效率

训练方面，扩散模型通常需要较长时间，特别是高分辨率模型。例如，Imagen模型据称在数千TPU日量级；Stable Diffusion在数百A100-GPU日量级。但这是和同等规模的GAN相当的——大规模GAN（如StyleGAN3训练1024px）也需要类似资源。小规模数据上，扩散模型训练甚至更快收敛，因为无需像GAN那样“斗智斗勇”。例如，在CIFAR-10上DDPM训练几十小时即可达到SOTA，而GAN往往要大量尝试。

推理方面，扩散模型传统上慢于GAN。典型DDPM需要1秒以上生成一张 $256^2$ 图像（CPU上更慢），GAN则毫秒级。不过随着DDIM、FastDPM等算法，50步采样可在0.1秒左右生成 $256^2$ 图，与Autoregressive模型相当。如果使用最新的consistency模型甚至可1步生成接近扩散质量的图像，几乎弥合差距。视频生成加速也在进展，例如Imagen Video通过progressive distillation将128帧采样缩短到几秒内 arxiv.org 。

因此，在综合性能和效率上，扩散模型已从开始时的“慢但好”逐步走向“既好又快”。尤其在有GPU加速的环境下，几十步迭代的延迟往往可以接受。因此，越来越多实际应用（如手机上的滤镜、在线的图像服务）开始尝试引入扩散模型作为后端引擎。

7. 总结与展望

总结： 扩散模型作为一类新兴的深度生成模型，在最近几年经历了飞速的发展。从最初与score matching相结合的理论框架，到DDPM等实证出色的方法，再到一系列采样提速和条件控制的改进，扩散模型已经证明了自身在生成质量和稳定性上的巨大优势。与GAN相比，扩散模型训练更稳定、模式覆盖更全面，现有模型在图像清晰度上已可媲美甚至超越GAN；与流模型和自回归模型相比，扩散模型同时具备高感知质量和灵活条件控制，并且保留了一定的对数似然解释性。基于扩散模型的文本到图像、文本到视频技术的成功，更是展示了这类模型的强大跨模态生成能力和可扩展性。

应用层面，扩散模型正迅速融入各种生成任务：从无条件图像、类别条件图像，到以Stable Diffusion为代表的文本制图，再到Imagen Video、Make-A-Video等文本生成视频，以及图像修复、超分、编辑等。许多传统上由GAN或特定模型主导的任务正被扩散模型刷新记录。值得注意的是，随着Stable Diffusion等开源模型的出现，扩散模型技术正加速从学术走向工业应用，催生出丰富的创新和产品，例如AI绘画工具、视频创意生成、智能修图软件等，拓宽了内容创作的边界。

展望： 尽管扩散模型已经取得了惊人的成果，但仍有许多值得探索的方向：

进一步提高生成效率： 包括开发更高阶的采样方法、模型压缩蒸馏、调整扩散过程以减少步骤等，使得扩散模型能够在实时甚至边缘设备上运行。这对于视频生成、交互式应用尤为重要。
更长时间和更高分辨率的视频： 目前扩散模型生成视频长度有限，分辨率也不算太高。未来需要解决长序列生成中的记忆和稳定性问题，以及更大空间尺寸下的细节保真。这可能需要新的模型结构（如分块生成、分层扩散）以及更强硬件支持。
跨模态与多模态扩散： 通过扩散模型统一处理图像、视频、音频、文本等多模态数据，实现不同模态之间的一致生成。如同时生成与视频相匹配的音频，或根据剧本生成影音同步的动画等。这需要将扩散框架与其它模态生成模型结合，是具有挑战但很有前景的方向。
理论方面： 进一步理解扩散模型的工作机理，例如扩散过程与能量模型、流模型的统一解释，扩散模型的景观与收敛性质，扩散过程的最优设计等。这有助于指导新模型的设计并保证训练可控。
控制和安全： 随着扩散模型变得强大，其滥用风险（如深度伪造、版权问题）也需重视。如何在模型中内置内容控制机制（如不生成有害内容），如何标记生成数据，与法规配合都是产业界需要解决的问题。这可能涉及引入判别器过滤、训练时避开某些数据等手段。

总之，扩散模型在图像和视频生成领域的进展令人振奋。其成功得益于扎实的数学原理和不断创新的工程技术。可以预见，扩散模型及其变种将在生成内容的更多领域扮演关键角色。从学术研究到实际应用，扩散模型正引领着新一轮的生成 AI 革新。我们期待未来出现更多突破，使生成模型更加逼真高效，帮助人类实现更丰富的创意表达。

参考文献与资源

学术论文：

Ho, J., Jain, A., Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arxiv.org
Song, Y., Ermon, S. (2019). Generative Modeling by Estimating Gradients of the Data Distribution. NeurIPS 2019. arxiv.org
Song, Y. et al. (2021). Score-Based Generative Modeling through Stochastic Differential Equations. ICLR 2021. arxiv.org
Song, J., Meng, C., Ermon, S. (2020). Denoising Diffusion Implicit Models. ICLR 2021. arxiv.org
Nichol, A., Dhariwal, P. (2021). Improved Denoising Diffusion Probabilistic Models. ICML 2021. arxiv.org
Dhariwal, P., Nichol, A. (2021). Diffusion Models Beat GANs on Image Synthesis. NeurIPS 2021. arxiv.org
Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. arxiv.org
Nichol, A. et al. (2022). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. ICML 2022. arxiv.org
Ramesh, A. et al. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125. arxiv.org
Saharia, C. et al. (2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. NeurIPS 2022 (Imagen). openreview.net papers.nips.cc
Ho, J. et al. (2022). Video Diffusion Models. NeurIPS 2022. arxiv.org
Singer, U. et al. (2022). Make-A-Video: Text-to-Video Generation without Text-Video Data. arXiv:2209.14792. arxiv.org
Voleti, V. et al. (2022). MCVD: Masked Conditional Video Diffusion for Prediction, Generation, and Interpolation. NeurIPS 2022. arxiv.org
Saharia, C. et al. (2022). Palette: Image-to-Image Diffusion Models. SIGGRAPH 2022. arxiv.org
Luo, C. (2022). Understanding Diffusion Models: A Unified Perspective. arXiv:2208.11970. (扩散模型综述论文)
Kingma, D., Dhariwal, P. (2018). Glow: Generative Flow with Invertible 1x1 Convolutions. NeurIPS 2018. arxiv.org
Sohl-Dickstein, J. et al. (2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics. ICML 2015. (扩散模型早期雏形)
Liu, P. et al. (2023). A Survey on Diffusion Models in Vision: Tasks, Methods, and Challenges. arXiv:2304.14806. (扩散模型视觉任务综述)

开源项目：

hojonathanho/diffusion arxiv.org – DDPM原始实现（TensorFlow）。
yang-song/score_sde yang-song.net – Score-Based SDE模型官方代码（JAX）。
openai/improved-diffusion github.com – Improved DDPM及OpenAI指导扩散代码（包括Classifier Guidance）。
openai/glide-text2im github.com – GLIDE文本到图像扩散模型代码和预训练权重。
CompVis/latent-diffusion github.com – 潜变量扩散模型（Stable Diffusion早期版本）官方实现。
CompVis/stable-diffusion – Stable Diffusion文本生成图像模型的开源实现及权重。
huggingface/diffusers – HuggingFace的扩散模型库，包含多种预训练扩散模型（Stable Diffusion、Image/Speech Diffusion等）以及统一接口。
lucidrains/DALLE2-pytorch、lucidrains/imagen-pytorch、lucidrains/video-diffusion-pytorch – 指定作者的PyTorch复现实现，便于理解模型结构。
Mask-Conditioned-Video-Diffusion github.com – MCVD视频扩散模型官方实现。
Imagen Video & Make-A-Video Samples arxiv.org arxiv.org – 在线样本展示和补充材料网站。