Flow Matching 和 Diffusion 的联系与区别

阿正的梦工坊

于 2025-04-08 14:01:12 发布

阅读量1.3k

点赞数 10

分类专栏： Deep Learning 文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/shizheng_Li/article/details/147066379

版权

Deep Learning 专栏收录该内容

288 篇文章

订阅专栏

Diffusion（扩散模型）的基础

原理

扩散模型（Diffusion Models）是一类生成模型，通过模拟一个加噪过程（从数据到噪声）和一个去噪过程（从噪声恢复数据），学习数据的分布。其核心思想是将数据逐步添加高斯噪声，直至变成纯噪声（通常是标准正态分布），然后训练一个神经网络逆转这个过程，从噪声中重建数据。

扩散模型通常分为两部分：

前向过程（加噪，Forward Process）：从数据 ( $x_0$ ) 到噪声 ( $x_T$ )，这是一个固定的 Markov 过程。
逆向过程（去噪，Reverse Process）：从噪声 ( $x_T$ ) 回到数据 ( $x_0$ )，这是一个学习的参数化过程。

加噪公式（前向过程）

前向过程是一个逐步加噪的马尔可夫链，定义为：

$q(x_t | x_{t-1}) = \mathcal{N}(x_t | \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$

( $x_0$ )：初始数据，来自真实分布 ( $q(x_0)$ )。
( $\beta_t$ )：时间步 ( $t$ ) 的噪声方差调度（通常 ( $\beta_t < 1$ )），控制每一步加噪的强度。
( $\dots, T$ )：离散时间步，( $T$ ) 很大时，( $x_T \approx \mathcal{N}(0, I)$ )。

关键公式：通过逐步迭代，可以直接从 ( $x_0$ ) 跳到任意 ( $t$ ) 的分布（基于高斯性质）：

$q(x_t | x_0) = \mathcal{N}(x_t | \sqrt{\alpha_t} x_0, (1-\alpha_t) I)$

其中：

( $\alpha_t = \prod_{s=1}^t (1 - \beta_s)$ )：累计缩放因子，随 ( $t$ ) 增大而减小。
( $\alpha_t$ )：累计噪声方差。

使用方法：

输入：真实数据 ( $x_0$ )。
随机采样时间 ( $t$ ) 和噪声 ( $\epsilon \sim \mathcal{N}(0, I)$ )。
计算：( $x_t = \sqrt{\alpha_t} x_0 + \sqrt{1 - \alpha_t} \epsilon$ )。

去噪公式（逆向过程）

逆向过程试图从 ( $x_T$ ) 回到 ( $x_0$ )，定义为：

$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1} | \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$

( $\mu_\theta(x_t, t)$ )：神经网络预测的均值。
( $\Sigma_\theta(x_t, t)$ )：协方差，通常固定为 ( $\beta_t I$ ) 或其他简单形式。

训练目标是优化变分下界（ELBO），但实际中常用简化形式：预测噪声 ( $\epsilon$ )：

$\mathcal{L}_{\text{Diffusion}} = \mathbb{E}_{t, x_0, \epsilon} \left\| \epsilon - \epsilon_\theta(x_t, t) \right\|^2$

其中：

( $x_t = \sqrt{\alpha_t} x_0 + \sqrt{1 - \alpha_t} \epsilon$ )。
( $\epsilon_\theta(x_t, t)$ )：神经网络预测的噪声。

去噪公式：
给定 ( $x_t$ ) 和预测的 ( $\epsilon_\theta(x_t, t)$ )，一步去噪为：

$x_{t-1} = \frac{1}{\sqrt{1-\beta_t}} \left( x_t - \frac{\beta_t}{\sqrt{1-\alpha_t}} \epsilon_\theta(x_t, t) \right) + \sqrt{\beta_t} z, \quad z \sim \mathcal{N}(0, I)$

使用方法：

从 ( $x_T \sim \mathcal{N}(0, I)$ ) 开始。
迭代 ( $t = T$ ) 到 ( $t = 1$ )，每次用神经网络预测 ( $\epsilon_\theta(x_t, t)$ )，计算 ( $x_{t-1}$ )。

Flow Matching（流匹配）的回顾

原理

Flow Matching 是一种基于连续归一化流（CNFs）的生成方法，通过学习一个时间依赖的向量场 ( $v_t(x)$ )，将初始分布（通常是 ( $\mathcal{N}(0, I)$ )）平滑变换到目标分布 ( $q (x)$ )。其核心是一个 ODE：

$\frac{d}{dt} \phi_t(x) = v_t(\phi_t(x)), \quad \phi_0(x) = x$

概率路径由推前公式定义：

$p_t(x) = [\phi_t]_* p_0(x)$

这里的定义和详细内容参考flow matching的原始论文，请参考笔者的另外的博客：
深入解析 Flow Matching：从条件概率路径与向量场到条件流匹配
和
深入解析 Flow Matching（二）：从条件概率路径与向量场到条件流匹配

公式

Flow Matching 的训练目标是回归目标向量场 ( $u_t(x)$ )：

$\mathcal{L}_{\text{FM}}(\theta) = \mathbb{E}_{t, p_t(x)} \left\| v_t(x) - u_t(x) \right\|^2$

由于直接计算 ( $u_t(x)$ ) 和 ( $p_t(x)$ ) 困难，引入条件流匹配（CFM）：

$\mathcal{L}_{\text{CFM}}(\theta) = \mathbb{E}_{t, q(x_1), p_t(x | x_1)} \left\| v_t(x) - u_t(x | x_1) \right\|^2$

( $p_t(x | x_1)$ )：条件概率路径，例如 ( $\mathcal{N}(x | t x_1, (1-t)^2 I)$ )（线性插值）。
( $u_t(x | x_1)$ )：条件向量场，例如对于高斯路径：
$u_t(x | x_1) = \frac{x_1 - x}{1-t}$

使用方法：

采样 ( $\sim \mathcal{U}[0,1]$ )，( $x_1 \sim q(x_1)$ )，( $\sim p_t(x | x_1)$ )。
计算 ( $u_t(x | x_1)$ )，优化 ( $v_t(x; \theta)$ ) 与其接近。
生成时，从 ( $x_0 \sim \mathcal{N}(0, I)$ ) 开始，解 ODE 到 ( $t = 1$ )。

Flow Matching 和 Diffusion 的联系与区别

联系

目标相似：
- 两者都旨在从简单分布（通常是 ( $\mathcal{N}(0, I)$ )）生成复杂数据分布 ( $q (x)$ )。
- Diffusion 的逆向过程和 Flow Matching 的流变换都是从噪声到数据的映射。
概率路径：
- Diffusion 的前向过程 ( $q(x_t | x_0)$ ) 和 Flow Matching 的条件路径 ( $p_t(x | x_1)$ ) 都可以设计为高斯形式。例如，Diffusion 的 ( $q(x_t | x_0) = \mathcal{N}(\sqrt{\alpha_t} x_0, (1-\alpha_t) I)$ ) 和 Flow Matching 的 ( $p_t(x | x_1) = \mathcal{N}(t x_1, (1-t)^2 I)$ ) 在形式上类似。
向量场关系：
- Diffusion 的去噪向量场（通过 ( $\epsilon_\theta$ ) 间接定义）和 Flow Matching 的 ( $u_t(x | x_1)$ ) 都描述了从噪声到数据的动态。
- 论文中提到，Diffusion 可以看作 Flow Matching 的特例，当路径和向量场设计一致时。

区别

方面	Diffusion（扩散模型）	Flow Matching（流匹配）
时间域	离散时间步 ( $\dots, T$ )	连续时间 ( $\in [0, 1]$ )
过程定义	加噪（前向）和去噪（逆向）的马尔可夫链	单向连续流（ODE）
加噪机制	固定高斯噪声，逐步破坏数据	不显式加噪，定义条件路径 ( $p_t(x \| x_1)$ )
训练目标	预测噪声 ( $\epsilon$ )，优化 ELBO	回归向量场 ( $u_t(x \| x_1)$ )，无仿真损失
公式	( $x_t = \sqrt{\alpha_t} x_0 + \sqrt{1-\alpha_t} \epsilon$ )	( $\frac{d}{dt} x_t = v_t(x_t)$ )
生成方式	迭代采样 ( $x_{t-1}$ ) 从 ( $x_T$ ) 到 ( $x_0$ )	解 ODE 从 ( $x_0$ ) 到 ( $x_1$ )
计算效率	需多步采样（T 较大时慢）	单次 ODE 求解（更快，但依赖求解器精度）

1. 时间域与过程

Diffusion：离散时间，使用马尔可夫链，分为前向加噪和逆向去噪两阶段。
Flow Matching：连续时间，基于 ODE，单向流动，无显式加噪/去噪分离。

2. 加噪与路径

Diffusion：前向过程明确加噪，( $x_t$ ) 是 ( $x_0$ ) 和噪声的混合。例如：
$x_t = \sqrt{\alpha_t} x_0 + \sqrt{1-\alpha_t} \epsilon$
去噪时预测 ( $\epsilon$ )。
Flow Matching：不直接加噪，而是定义一个平滑路径 ( $p_t(x | x_1)$ )，向量场 ( $u_t(x | x_1)$ ) 驱动 ( $x$ ) 从噪声移动到 ( $x_1$ )。例如：
$p_t(x | x_1) = \mathcal{N}(x | t x_1, (1-t)^2 I)$
$u_t(x | x_1) = \frac{x_1 - x}{1-t}$

3. 训练目标

Diffusion：学习去噪，优化噪声预测误差 ( $\| \epsilon - \epsilon_\theta \|^2$ )。
Flow Matching：直接回归向量场 ( $v_t(x) - u_t(x | x_1) \|^2$ )，无需模拟整个路径。

4. 生成效率

Diffusion：需要 ( $T$ ) 步迭代采样，计算成本高。
Flow Matching：通过 ODE 求解器（例如 Euler 或 Runge-Kutta）一次性生成，效率更高。

如何讲明白？

共同点切入：
- “Diffusion 和 Flow Matching 都是从噪声生成数据的模型。Diffusion 通过加噪和去噪两步走，Flow Matching 用连续流直接变换。”
加噪与去噪公式：
- “Diffusion 的加噪是 ( $x_t = \sqrt{\alpha_t} x_0 + \sqrt{1-\alpha_t} \epsilon$ )，去噪靠神经网络预测 ( $\epsilon$ )。比如，给一张图片加噪 1000 步变成纯噪声，再一步步去噪回来。”
- “Flow Matching 不加噪，而是定义路径，比如 ( $p_t(x | x_1) = \mathcal{N}(t x_1, (1-t)^2 I)$ )，然后学一个向量场 ( $v_t(x)$ ) 直接把噪声推到数据。”
对比举例：
- “假设你要画一幅画。Diffusion 是先把画擦成白噪声，再慢慢描回去；Flow Matching 是直接拿支笔从空白纸上画出轮廓，连续完成。”
优缺点总结：
- “Diffusion 简单但慢，适合高质量生成；Flow Matching 快且优雅，但需要设计路径和求解 ODE。”