Is Noise Conditioning Necessary for Denoising Generative Models?
Abstract
人们普遍认为,噪声调节对于去噪扩散模型的成功运行是不可或缺的。本研究对这一观点提出了挑战。受盲图像去噪研究的启发,我们研究了在没有噪声调节的情况下各种基于去噪的生成模型的表现。令人惊讶的是,大多数去噪生成模型在移除噪声调节后,性能仅轻微下降,甚至部分任务表现更好。我们对去除噪声调节所引起的误差进行了理论分析,并证明我们的分析与实验观察结果一致,进一步提出了一种无噪声调节的模型,该模型在CIFAR-10数据集上达到了2.23的FID(Fréchet Inception Distance)分数,显著缩小了与领先的噪声调节模型之间的差距。
1. Introduction
去噪扩散模型的核心思想是通过逐步添加不同强度的噪声破坏干净数据,并学习逆向这一过程。这类模型的显著成功部分依赖于“噪声调节”(noise conditioning)这一概念(Sohl-Dickstein et al., 2015; Song & Ermon, 2019; Ho et al., 2020):通过向单个神经网络提供噪声强度作为条件输入,使其能够处理所有噪声水平的去噪任务。噪声调节已被广泛视为扩散模型的核心组件,并成为其主流设计范式。
本文重新审视了噪声调节在基于去噪的生成模型中的必要性。
- 我们的直觉是:在自然数据中,如图像数据,噪声强度可以直接从被破坏的数据中可靠地估计,这使得“盲去噪”(即无需预先知道噪声水平)成为可能。噪声水平估计和盲图像去噪是已被研究数十年的课题(Stahl et al., 2000; Salmeri et al., 2001; Rabie, 2005),而神经网络为此提供了有效解决方案(Chen et al., 2018; Guo et al., 2019; Zhang et al., 2023)。
- 这引出了一个关键问题:图像去噪领域的研究能否推广到基于去噪的生成模型中?
受此启发,本文系统性地比较了多种基于去噪的生成模型——包括有/无噪声调节的版本。与普遍认知相反,我们发现许多去噪生成模型即使在没有噪声调节的情况下仍能稳健运行。在此场景下,大多数方法仅表现出适度的生成性能下降。更令人惊讶的是,某些方法(尤其是基于流的模型(Lipman et al., 2023; Liu et al., 2023),其设计初衷与扩散模型不同)甚至能在移除噪声调节后生成更优的结果。在我们研究的所有主流方法中,仅有一种变体完全失效。总体而言,实验结果表明:噪声调节可能并非去噪生成模型正常运行的必要条件。
我们对这些模型在无噪声调节情况下的行为进行了理论分析。
- 研究了噪声水平分布中的固有不确定性、无噪声调节去噪引起的误差,以及迭代采样器中误差的累积效应。
- 综合这些因素,提出了一个误差界公式,该公式无需任何训练即可计算,仅依赖于噪声调度方案和数据集。
- 实验表明,这一误差界与我们研究的模型在无噪声调节下的行为高度相关——尤其是在模型完全失效的情况下,其误差界会高出数个数量级。
由于无噪声调节模型的研究较少,专门为这一未被充分探索的场景设计模型具有重要意义。为此,我们提出了一种基于EDM模型(Karras et al., 2022)的简单替代方案。
在没有噪声调节的情况下,我们的变体模型仍能实现强大的性能,在CIFAR-10数据集上达到了2.23的FID(Fréchet Inception Distance)。这一结果显著缩小了无噪声调节系统与其噪声调节对应模型之间的性能差距(例如,EDM的FID为1.97)。
展望未来,我们希望移除噪声调节能够为基于去噪的生成模型开辟新的发展路径。例如,只有在无噪声调节的情况下,基于分数匹配的模型才能学习到唯一的分数函数,从而支持经典的、基于物理的朗之万动力学(Langevin dynamics)。
2. Related Work
Noise Conditioning.
扩散模型的开创性工作(Sohl-Dickstein et al., 2015)提出了通过逐步扰动干净数据并学习模型以逆转这一过程。在这项先驱性工作中,作者引入了“时间依赖读出函数” [time dependent readout function],这是噪声调节的早期形式。
现代噪声调节的实现由噪声条件分数网络(NCSN)(Song & Ermon, 2019)的提出而普及。NCSN最初是为分数匹配开发的,其架构被去噪扩散概率模型(DDPM)采用并改进,后者明确将生成问题表述为迭代去噪任务。噪声调节的实践在iDDPM(Nichol & Dhariwal, 2021)、ADM(Dhariwal & Nichol, 2021)以及几乎所有后续衍生模型中被继承。
DDIM(Song et al., 2021a)和EDM(Karras et al., 2022)将反向扩散过程重新表述为常微分方程(ODE)求解器,从而支持从单一初始噪声进行确定性采样。流匹配(FM)模型(Lipman et al., 2023; Liu et al., 2023; Albergo et al., 2023)通过学习将一个分布映射到另一个分布的流场,重新表述并推广了这一框架。在这些方法中,噪声调节(也称为时间调节)是标准的选择。
除了扩散模型,一致性模型(Song et al., 2023)作为一种新的生成模型家族,支持非迭代生成。研究发现(Song & Dhariwal, 2024),噪声调节及其实现细节对一致性模型的成功至关重要,进一步凸显了噪声调节的核心作用。
Blind Image Denoising.
在图像处理领域,盲图像去噪已被研究数十年。它指在没有任何关于噪声水平、类型或其他特征的先验知识的情况下对图像进行去噪。相关研究包括从噪声图像中估计噪声水平(Stahl et al., 2000; Shin et al., 2005; Liu et al., 2013; Chen et al., 2015),以及直接从数据中学习盲去噪(Liu et al., 2007; Chen et al., 2018; Batson & Royer, 2019; Zhang et al., 2023)。现代神经网络(包括扩散模型中常用的U-Net)已被证明在这些任务中非常有效。我们的研究与经典盲去噪工作密切相关。然而,生成过程的迭代特性(误差可能累积)带来了新的挑战,在应对这些挑战的过程中,我们的工作为扩展经典方法开辟了新的研究机会。
3. Formulation
在本节中,我们提出了一种重新表述,可以总结各种去噪生成模型的训练和采样过程。我们重新表述的核心动机是分离出神经网络 N N θ NN_θ NNθ,从而能够关注它在噪声调节下的行为。
3.1. Denoising Generative Models
Training objective.
在训练过程中,从数据分布
p
(
x
)
p(x)
p(x)中采样数据点
x
x
x,并从噪声分布
p
(
ϵ
)
p(\epsilon)
p(ϵ)(如正态分布
N
(
0
,
I
)
\mathcal{N}(0, I)
N(0,I))中采样噪声
ϵ
\epsilon
ϵ。噪声图像
z
z
z 由以下公式给出:
z
=
a
(
t
)
x
+
b
(
t
)
ϵ
.
(
1
)
z = a(t)x + b(t)\epsilon. \quad (1)
z=a(t)x+b(t)ϵ.(1)
其中,
a
(
t
)
a(t)
a(t) 和
b
(
t
)
b(t)
b(t) 是与方法相关的调度函数。时间步
t
t
t(可以是连续或离散标量)从分布
p
(
t
)
p(t)
p(t)中采样。在不失一般性的情况下,我们将
b
(
t
)
b(t)
b(t) 或
t
t
t 称为噪声水平。
通常,去噪生成模型的目标是最小化以下形式的损失函数:
L
(
θ
)
=
E
x
,
ϵ
,
t
[
w
(
t
)
∥
NN
θ
(
z
∣
t
)
−
r
(
x
,
ϵ
,
t
)
∥
2
]
.
(
2
)
\mathcal{L}(\theta) = \mathbb{E}_{x,\epsilon,t}\left[w(t)\left\| \text{NN}_\theta(z|t) - r(x, \epsilon, t) \right\|^2\right]. \quad (2)
L(θ)=Ex,ϵ,t[w(t)∥NNθ(z∣t)−r(x,ϵ,t)∥2].(2)
其中,
NN
θ
\text{NN}_\theta
NNθ是待学习的神经网络,
r
(
x
,
ϵ
,
t
)
r(x, \epsilon, t)
r(x,ϵ,t)是回归目标,
w
(
t
)
w(t)
w(t)是权重。回归目标
r
r
r 可以表示为:
r
(
x
,
ϵ
,
t
)
=
c
(
t
)
x
+
d
(
t
)
ϵ
,
(
3
)
r(x, \epsilon, t) = c(t)x + d(t)\epsilon, \quad (3)
r(x,ϵ,t)=c(t)x+d(t)ϵ,(3)
其中,
c
(
t
)
c(t)
c(t)和
d
(
t
)
d(t)
d(t)也是方法特定的调度函数。常见的回归目标选择包括
ϵ
\epsilon
ϵ-预测(Ho et al., 2020)、
x
x
x-预测(Salimans & Ho, 2022)或
v
v
v-预测(Salimans & Ho, 2022; Lipman et al., 2023)。
表1. 列出了几种现有方法的调度函数的具体形式。在我们的重新表述中,我们关注回归目标 r r r与神经网络 NN θ \text{NN}_\theta NNθ直接输出之间的关系。
Sampling
给定训练好的神经网络
NN
θ
\text{NN}_\theta
NNθ,采样器执行迭代去噪。具体而言,从初始噪声
x
0
∼
N
(
0
,
b
(
t
max
)
2
I
)
x_0 \sim \mathcal{N}(0, b(t_{\text{max}})^2 I)
x0∼N(0,b(tmax)2I)开始,采样器迭代计算:
x
i
+
1
:
=
κ
i
x
i
+
η
i
NN
θ
(
x
i
∣
t
i
)
+
ζ
i
ϵ
~
i
.
(
4
)
x_{i+1} := \kappa_i x_i + \eta_i \text{NN}_\theta(x_i | t_i) + \zeta_i \tilde{\epsilon}_i. \quad (4)
xi+1:=κixi+ηiNNθ(xi∣ti)+ζiϵ~i.(4)
其中,时间步
{
t
i
}
\{t_i\}
{ti}是预先指定的离散集合,索引为
0
≤
i
<
N
0 \leq i < N
0≤i<N。调度参数
κ
i
\kappa_i
κi、
η
i
\eta_i
ηi和
ζ
i
\zeta_i
ζi可以从训练时的噪声调度(见表1)中计算得出(具体形式见附录D)。在公式 (4) 中,
ϵ
~
i
∼
N
(
0
,
I
)
\tilde{\epsilon}_i \sim \mathcal{N}(0, I)
ϵ~i∼N(0,I)是采样时的噪声,仅在基于随机微分方程(SDE)的求解器中起作用;在基于常微分方程(ODE)的求解器中不添加噪声,即
ζ
i
=
0
\zeta_i = 0
ζi=0。
公式 (4) 是一个通用形式,可以涵盖许多一阶采样器,例如(退火)朗之万采样和基于欧拉的ODE求解器。高阶采样器可以通过额外的调度参数类似地表示。在本文中,我们的理论分析基于公式 (4),而高阶情况则通过实验进行评估。
D.1. iDDPM
iDDPM的损失函数在DDPM(Ho et al., 2020)的符号表示中为:
L
simple
=
E
t
,
x
0
,
ϵ
[
∥
ϵ
−
ϵ
θ
(
α
ˉ
t
x
0
+
1
−
α
ˉ
t
ϵ
,
t
)
∥
2
]
.
L_{\text{simple}} = \mathbb{E}_{t,x_0,\epsilon} \left[ \| \epsilon - \epsilon_\theta (\sqrt{\bar{\alpha}_t}x_0 + \sqrt{1 - \bar{\alpha}_t}\epsilon, t) \|^2 \right].
Lsimple=Et,x0,ϵ[∥ϵ−ϵθ(αˉtx0+1−αˉtϵ,t)∥2].
这可以直接转换为我们的符号表示:
L
(
θ
)
=
E
x
,
ϵ
,
t
[
w
(
t
)
∥
NN
θ
(
z
∣
c
noise
(
t
)
)
−
r
(
x
,
ϵ
,
t
)
∥
2
]
,
L(\theta) = \mathbb{E}_{x,\epsilon,t} \left[ w(t) \| \text{NN}_\theta(z|c_{\text{noise}}(t)) - r(x, \epsilon, t) \|^2 \right],
L(θ)=Ex,ϵ,t[w(t)∥NNθ(z∣cnoise(t))−r(x,ϵ,t)∥2],
其中系数为:
a
(
t
)
=
α
ˉ
(
t
)
,
b
(
t
)
=
1
−
α
ˉ
(
t
)
,
c
(
t
)
=
0
,
d
(
t
)
=
1
,
(
55
)
a(t) = \sqrt{\bar{\alpha}(t)}, \quad b(t) = \sqrt{1 - \bar{\alpha}(t)}, \quad c(t) = 0, \quad d(t) = 1, \quad (55)
a(t)=αˉ(t),b(t)=1−αˉ(t),c(t)=0,d(t)=1,(55)
并且训练权重和
t
t
t 的分布为:
w
(
t
)
=
1
,
p
(
t
)
=
U
{
1
,
…
,
T
}
.
(
56
)
w(t) = 1, \quad p(t) = \mathcal{U}\{1, \dots, T\}. \quad (56)
w(t)=1,p(t)=U{1,…,T}.(56)
注意扩散调度
α
ˉ
(
t
)
\bar{\alpha}(t)
αˉ(t) 存在于系数中。我们采用了Nichol & Dhariwal(2021)中的改进余弦调度:
α
ˉ
(
t
)
=
1
2
(
1
+
cos
(
π
t
T
)
)
,
(
57
)
\bar{\alpha}(t) = \frac{1}{2} \left( 1 + \cos \left( \frac{\pi t}{T} \right) \right), \quad (57)
αˉ(t)=21(1+cos(Tπt)),(57)
其中
T
=
4000
T = 4000
T=4000 是训练期间的总扩散步数。
接下来,考虑采样过程,用他们的符号表示,迭代公式为:
x
t
−
1
=
1
α
t
(
x
t
−
1
−
α
t
1
−
α
ˉ
t
ϵ
θ
(
x
t
,
t
)
)
+
1
−
α
ˉ
t
−
1
1
−
α
ˉ
t
β
t
z
,
x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right) + \sqrt{\frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_{t}}\beta_t} z,
xt−1=αt1(xt−1−αˉt1−αtϵθ(xt,t))+1−αˉt1−αˉt−1βtz,
其中
z
∼
N
(
0
,
I
)
z \sim \mathcal{N}(0, I)
z∼N(0,I) 是标准高斯随机噪声。将这个采样方程转换为我们的符号表示:
κ
i
=
α
ˉ
i
+
1
α
ˉ
i
,
η
i
=
1
1
−
α
ˉ
i
(
α
ˉ
i
α
ˉ
i
+
1
−
α
ˉ
i
+
1
α
ˉ
i
)
,
ζ
i
=
1
−
α
ˉ
i
α
ˉ
i
+
1
1
−
α
ˉ
i
+
1
1
−
α
ˉ
i
,
(
58
)
\kappa_i = \sqrt{\frac{\bar{\alpha}_{i+1}}{\bar{\alpha}_i}}, \quad \eta_i = \frac{1}{\sqrt{1 - \bar{\alpha}_i}} \left( \sqrt{\frac{\bar{\alpha}_i}{\bar{\alpha}_{i+1}}} - \sqrt{\frac{\bar{\alpha}_{i+1}}{\bar{\alpha}_i}} \right), \quad \zeta_i = \sqrt{\frac{1 - \bar{\alpha}_i}{\bar{\alpha}_{i+1}}} \sqrt{\frac{1 - \bar{\alpha}_{i+1}}{1 - \bar{\alpha}_i}}, \quad (58)
κi=αˉiαˉi+1,ηi=1−αˉi1(αˉi+1αˉi−αˉiαˉi+1),ζi=αˉi+11−αˉi1−αˉi1−αˉi+1,(58)
并且
t
i
=
(
N
−
i
)
/
N
⋅
T
.
(
59
)
t_i = (N-i)/N \cdot T. \quad (59)
ti=(N−i)/N⋅T.(59)
D.2. DDIM
DDIM(Song et al., 2021a)与DDPM(Ho et al., 2020)共享训练过程。然而,为了展示我们方案的通用性,我们选择使用线性调度来表示
α
ˉ
(
t
)
\bar{\alpha}(t)
αˉ(t)。该调度的形式为:
α
ˉ
(
t
)
=
∏
i
=
0
t
−
1
(
1
−
k
1
−
k
2
i
T
−
1
)
,
(
60
)
\bar{\alpha}(t) = \prod_{i=0}^{t-1} \left(1 - k_1 - k_2 \frac{i}{T - 1}\right), \quad (60)
αˉ(t)=i=0∏t−1(1−k1−k2T−1i),(60)
其中
k
1
=
1
0
−
4
k_1 = 10^{-4}
k1=10−4,
k
2
=
2
×
1
0
−
2
k_2 = 2 \times 10^{-2}
k2=2×10−2,
T
=
1000
T = 1000
T=1000 是训练期间的总扩散步数。
采样过程由以下公式给出:
x
t
−
1
=
α
ˉ
t
−
1
(
x
t
−
1
−
α
ˉ
t
ϵ
θ
(
x
t
,
t
)
α
ˉ
t
)
+
1
−
α
ˉ
t
−
1
ϵ
θ
(
x
t
,
t
)
,
x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \left( \frac{x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta(x_t, t)}{\sqrt{\bar{\alpha}_t}} \right) + \sqrt{1 - \bar{\alpha}_{t-1}} \epsilon_\theta(x_t, t),
xt−1=αˉt−1(αˉtxt−1−αˉtϵθ(xt,t))+1−αˉt−1ϵθ(xt,t),
这是通过在他们的符号中将
σ
t
=
0
\sigma_t = 0
σt=0 代入得到的。同样,可以将其直接转换为我们的符号表示:
κ
i
=
α
ˉ
i
+
1
α
ˉ
i
,
η
i
=
1
−
α
ˉ
i
+
1
−
α
ˉ
i
+
1
α
ˉ
i
(
1
−
α
ˉ
i
)
,
ζ
i
=
0
,
(
61
)
\kappa_i = \sqrt{\frac{\bar{\alpha}_{i+1}}{\bar{\alpha}_i}}, \quad \eta_i = \sqrt{1 - \bar{\alpha}_{i+1}} - \sqrt{\frac{\bar{\alpha}_{i+1}}{\bar{\alpha}_i}} (1 - \bar{\alpha}_i), \quad \zeta_i = 0, \quad (61)
κi=αˉiαˉi+1,ηi=1−αˉi+1−αˉiαˉi+1(1−αˉi),ζi=0,(61)
并且
t
i
=
(
N
−
i
)
/
N
⋅
T
.
(
62
)
t_i = (N-i)/N \cdot T. \quad (62)
ti=(N−i)/N⋅T.(62) 此外,我们可以考虑Song et al. (2021a) 提出的广义采样器,其中包含一个可调参数
λ
∈
[
0
,
1
]
\lambda \in [0, 1]
λ∈[0,1]。在他们的原始符号中,采样器可以写成:
x
t
−
1
=
α
ˉ
t
−
1
(
x
t
−
1
−
α
ˉ
t
ϵ
θ
(
x
t
,
t
)
α
ˉ
t
)
+
1
−
α
ˉ
t
−
1
−
λ
2
σ
t
2
ϵ
θ
(
x
t
,
t
)
+
λ
σ
t
ϵ
t
,
x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \left( \frac{x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta(x_t, t)}{\sqrt{\bar{\alpha}_t}} \right) + \sqrt{1 - \bar{\alpha}_{t-1} - \lambda^2 \sigma_t^2} \epsilon_\theta(x_t, t) + \lambda \sigma_t \epsilon_t,
xt−1=αˉt−1(αˉtxt−1−αˉtϵθ(xt,t))+1−αˉt−1−λ2σt2ϵθ(xt,t)+λσtϵt,
其中
σ
t
:
=
(
α
ˉ
t
−
1
−
α
ˉ
t
)
(
1
−
α
ˉ
t
−
1
)
α
ˉ
t
−
1
(
1
−
α
ˉ
t
)
,
\sigma_t := \sqrt{\frac{(\bar{\alpha}_{t-1} - \bar{\alpha}_t)(1 - \bar{\alpha}_{t-1})}{\bar{\alpha}_{t-1}(1 - \bar{\alpha}_t)}},
σt:=αˉt−1(1−αˉt)(αˉt−1−αˉt)(1−αˉt−1),
且
ϵ
t
\epsilon_t
ϵt 是独立的高斯随机噪声。在我们的公式中,可以等价地写成:
{
κ
i
=
α
ˉ
i
+
1
α
ˉ
i
,
η
i
=
1
−
α
ˉ
i
+
1
−
λ
2
(
α
ˉ
i
+
1
−
α
ˉ
i
)
(
1
−
α
ˉ
i
+
1
)
α
ˉ
i
+
1
(
1
−
α
ˉ
i
)
−
α
ˉ
i
+
1
α
ˉ
i
(
1
−
α
ˉ
i
)
,
ζ
i
=
λ
(
α
ˉ
i
+
1
−
α
ˉ
i
)
(
1
−
α
ˉ
i
+
1
)
α
ˉ
i
+
1
(
1
−
α
ˉ
i
)
.
(
63
)
\begin{cases} \kappa_i = \sqrt{\frac{\bar{\alpha}_{i+1}}{\bar{\alpha}_i}}, \\ \eta_i = \sqrt{1 - \bar{\alpha}_{i+1} - \lambda^2 \frac{(\bar{\alpha}_{i+1} - \bar{\alpha}_i)(1 - \bar{\alpha}_{i+1})}{\bar{\alpha}_{i+1}(1 - \bar{\alpha}_i)}}-\sqrt{\frac{\bar{\alpha}_{i+1}}{\bar{\alpha}_i}} (1 - \bar{\alpha}_i),\\ \zeta_i = \lambda \sqrt{\frac{(\bar{\alpha}_{i+1} - \bar{\alpha}_i)(1 - \bar{\alpha}_{i+1})}{\bar{\alpha}_{i+1}(1 - \bar{\alpha}_i)}}. \quad (63) \end{cases}
⎩
⎨
⎧κi=αˉiαˉi+1,ηi=1−αˉi+1−λ2αˉi+1(1−αˉi)(αˉi+1−αˉi)(1−αˉi+1)−αˉiαˉi+1(1−αˉi),ζi=λαˉi+1(1−αˉi)(αˉi+1−αˉi)(1−αˉi+1).(63)
这些表达式用于我们在第6.2节中的“插值采样器”实验。可以验证,当 λ = 1 \lambda = 1 λ=1 时,系数 κ i \kappa_i κi、 η i \eta_i ηi 和 ζ i \zeta_i ζi 将与iDDPM(公式(58))相同;当 λ = 0 \lambda = 0 λ=0 时,系数将与DDIM(公式(61))相同。
3.2. Noise Conditional Networks
在现有方法中,神经网络
NN
θ
(
z
∣
t
)
\text{NN}_\theta(z | t)
NNθ(z∣t)以噪声水平
t
t
t 为条件。参见图1(a)。这通常通过
t
t
t-嵌入实现,这种
t
t
t-嵌入将时间水平信息作为网络的额外输入。
本文的研究关注这种噪声调节的影响,即比较
NN
θ
(
z
)
\text{NN}_\theta(z)
NNθ(z)和
NN
θ
(
z
∣
t
)
\text{NN}_\theta(z | t)
NNθ(z∣t)。参见图1(b)。
NN
θ
(
z
)
\text{NN}_\theta(z)
NNθ(z)或
NN
θ
(
z
∣
t
)
\text{NN}_\theta(z | t)
NNθ(z∣t)包含模型中的所有可学习参数,而调度参数(如
a
(
t
)
a(t)
a(t)、
b
(
t
)
b(t)
b(t)等)是预先设计且不可学习的。
4. Analysis of Noise-Unconditional Models
基于上述公式,我们对移除噪声调节的影响进行了理论分析。涵盖了训练目标和采样过程。首先分析了训练阶段回归的有效目标及其在单步去噪中的误差(第4.1至4.3节),然后给出了迭代采样器中累积误差的上界(第4.4节)。我们的分析提供了一个误差界,并通过实验进行验证。
4.1. Effective Targets
尽管损失函数通常写作式 (2) 的形式,但神经网络 NN θ ( z ∣ t ) \text{NN}_\theta(z|t) NNθ(z∣t)的潜在唯一回归目标并非 r ( x , ϵ , t ) r(x, \epsilon, t) r(x,ϵ,t)。函数 NN θ ( z ∣ t ) \text{NN}_\theta(z|t) NNθ(z∣t)(关于 z z z和 t t t的函数)被回归到多个不同的 r r r值,这些值对应生成相同 z z z的不同三元组 ( x , ϵ , t ) (x, \epsilon, t) (x,ϵ,t)(见图 2)。直观上,唯一有效目标(记为 R ( z ∣ t ) R(z|t) R(z∣t),以强调其对 z z z和 t t t的依赖)是 r r r 在所有可能生成 z z z 的三元组上的期望。
L ( θ ) = E x , ϵ , t [ w ( t ) ∥ NN θ ( z ∣ t ) − r ( x , ϵ , t ) ∥ 2 ] . ( 2 ) \mathcal{L}(\theta) = \mathbb{E}_{x,\epsilon,t}\left[w(t)\left\| \text{NN}_\theta(z|t) - r(x, \epsilon, t) \right\|^2\right]. \quad (2) L(θ)=Ex,ϵ,t[w(t)∥NNθ(z∣t)−r(x,ϵ,t)∥2].(2)
形式上,优化式 (2) 的损失函数等价于优化以下损失函数,其中期望
E
[
⋅
]
\mathbb{E}[\cdot]
E[⋅]内的每一项都有唯一的有效目标:
L
(
θ
)
=
E
z
∼
p
(
z
)
,
t
∼
p
(
t
∣
z
)
[
∥
NN
θ
(
z
∣
t
)
−
R
(
z
∣
t
)
∥
2
]
.
(
5
)
\mathcal{L}(\theta) = \mathbb{E}_{z \sim p(z), t \sim p(t|z)} \left[ \left\| \text{NN}_\theta(z|t) - R(z|t) \right\|^2 \right]. \quad (5)
L(θ)=Ez∼p(z),t∼p(t∣z)[∥NNθ(z∣t)−R(z∣t)∥2].(5)
其中,
p
(
z
)
p(z)
p(z)是式 (1) 中
z
=
a
(
t
)
x
+
b
(
t
)
ϵ
z = a(t)x + b(t)\epsilon
z=a(t)x+b(t)ϵ 在联合分布
p
(
x
,
ϵ
,
t
)
=
p
(
x
)
p
(
ϵ
)
p
(
t
)
p(x, \epsilon, t) = p(x)p(\epsilon)p(t)
p(x,ϵ,t)=p(x)p(ϵ)p(t)下的边缘分布。
可以证明:
R
(
z
∣
t
)
=
E
(
x
,
ϵ
)
∼
p
(
x
,
ϵ
∣
z
,
t
)
[
r
(
x
,
ϵ
,
t
)
]
,
(
6
)
R(z|t) = \mathbb{E}_{(x,\epsilon) \sim p(x,\epsilon|z,t)} \left[ r(x, \epsilon, t) \right], \quad (6)
R(z∣t)=E(x,ϵ)∼p(x,ϵ∣z,t)[r(x,ϵ,t)],(6)
即,
R
(
z
∣
t
)
R(z|t)
R(z∣t)是在条件分布
p
(
x
,
ϵ
∣
z
,
t
)
p(x, \epsilon|z,t)
p(x,ϵ∣z,t)下对所有
(
x
,
ϵ
)
(x, \epsilon)
(x,ϵ)的期望。附录 C.1 证明,最小化式 (5) 等价于最小化式 (2)。
Effective Targets without Noise Conditioning.
类似地,若神经网络
NN
θ
(
z
)
\text{NN}_\theta(z)
NNθ(z)不以
t
t
t 为条件,其唯一有效目标
R
(
z
)
R(z)
R(z) 应仅依赖于
z
z
z。此时,损失函数为:
L
(
θ
)
=
E
z
∼
p
(
z
)
[
∥
NN
θ
(
z
)
−
R
(
z
)
∥
2
]
,
(
7
)
\mathcal{L}(\theta) = \mathbb{E}_{z \sim p(z)} \left[ \left\| \text{NN}_\theta(z) - R(z) \right\|^2 \right], \quad (7)
L(θ)=Ez∼p(z)[∥NNθ(z)−R(z)∥2],(7)
其中唯一有效目标为:
R
(
z
)
=
E
t
∼
p
(
t
∣
z
)
[
R
(
z
∣
t
)
]
.
(
8
)
R(z) = \mathbb{E}_{t \sim p(t|z)} \left[ R(z|t) \right]. \quad (8)
R(z)=Et∼p(t∣z)[R(z∣t)].(8)
式 (8) 表明,若条件分布
p
(
t
∣
z
)
p(t|z)
p(t∣z)接近狄拉克δ函数(即
t
t
t 可由
z
z
z 唯一确定),则有/无噪声调节的有效目标将相同。在此情况下,假设神经网络容量足够拟合目标函数,无噪声调节的模型将产生与有条件模型相同的输出。
4.2. Concentration of Posterior p ( t ∣ z ) p(t|z) p(t∣z)
接下来,我们研究条件分布 p ( t ∣ z ) p(t|z) p(t∣z)是否接近狄拉克δ函数。对于高维数据(如图3),长期以来人们已经认识到噪声水平可以可靠地估计,这意味着 p ( t ∣ z ) p(t|z) p(t∣z)是高度集中的。注意到, p ( t ∣ z ) p(t|z) p(t∣z)的集中程度取决于数据维度:
结论 1( p ( t ∣ z ) p(t|z) p(t∣z)的集中性):
考虑单个数据点
x
∈
[
−
1
,
1
]
d
x \in [-1, 1]^d
x∈[−1,1]d,噪声
ϵ
∼
N
(
0
,
I
)
\epsilon \sim \mathcal{N}(0, I)
ϵ∼N(0,I),时间步
t
∼
U
[
0
,
1
]
t \sim \mathcal{U}[0, 1]
t∼U[0,1],以及噪声数据
z
=
(
1
−
t
)
x
+
t
ϵ
z = (1 - t)x + t\epsilon
z=(1−t)x+tϵ。给定由特定
t
∗
t^*
t∗生成的噪声图像
z
=
(
1
−
t
∗
)
x
+
t
∗
ϵ
z = (1 - t^*)x + t^*\epsilon
z=(1−t∗)x+t∗ϵ,条件分布
p
(
t
∣
z
)
p(t|z)
p(t∣z)下
t
t
t 的方差为:
Var
t
∼
p
(
t
∣
z
)
[
t
]
≈
t
∗
2
2
d
,
(
9
)
\text{Var}_{t \sim p(t|z)}[t] \approx \frac{t^{*2}}{2d}, \quad (9)
Vart∼p(t∣z)[t]≈2dt∗2,(9)
当数据维度
d
d
d满足
1
d
≪
t
∗
\frac{1}{d} \ll t^*
d1≪t∗且
1
d
≪
1
−
t
∗
\frac{1}{d} \ll 1 - t^*
d1≪1−t∗时成立。(推导见附录 C.2)
直观上,这一结论表明,高维数据会导致 p ( t ∣ z ) p(t|z) p(t∣z)的方差较低。由于这一分析基于简化假设,我们通过实验在真实数据集上运行模拟并绘制 p ( t ∣ z ) p(t|z) p(t∣z)(见图 3)。实验结果表明, p ( t ∣ z ) p(t|z) p(t∣z)的分布高度集中。此外,较小的 t ∗ t_* t∗会导致 p ( t ∣ z ) p(t|z) p(t∣z)更加集中,这也与式 (9) 一致。
C.2 ---- d e r i v a t i o n : derivation: derivation:
考虑固定的 z = ( 1 − t ) x + t ϵ z = (1 - t)x + t\epsilon z=(1−t)x+tϵ,其中 x x x 是固定的数据点, ϵ ∼ N ( 0 , I ) \epsilon \sim \mathcal{N}(0, I) ϵ∼N(0,I)。不失一般性,我们假设 x = ( x 1 , x 2 , … , x d ) x = (x_1, x_2, \dots, x_d) x=(x1,x2,…,xd) 满足 − 1 ≤ x d ≤ x d − 1 ≤ ⋯ ≤ x 1 ≤ 1 -1 \leq x_d \leq x_{d-1} \leq \dots \leq x_1 \leq 1 −1≤xd≤xd−1≤⋯≤x1≤1,并记 ϵ = ( ϵ 1 , ϵ 2 , … , ϵ d ) \epsilon = (\epsilon_1, \epsilon_2, \dots, \epsilon_d) ϵ=(ϵ1,ϵ2,…,ϵd), z = ( z 1 , z 2 , … , z d ) z = (z_1, z_2, \dots, z_d) z=(z1,z2,…,zd)。
引入以下变换变量:
{
x
′
:
=
(
x
1
−
x
2
,
x
3
−
x
4
,
…
,
x
d
−
1
−
x
d
)
ϵ
′
:
=
(
ϵ
1
−
ϵ
2
,
ϵ
3
−
ϵ
4
,
…
,
ϵ
d
−
1
−
ϵ
d
)
z
′
:
=
(
z
1
−
z
2
,
z
3
−
z
4
,
…
,
z
d
−
1
−
z
d
)
(
28
)
\begin{cases} x' := (x_1 - x_2, x_3 - x_4, \dots, x_{d-1} - x_d) \\ \epsilon' := (\epsilon_1 - \epsilon_2, \epsilon_3 - \epsilon_4, \dots, \epsilon_{d-1} - \epsilon_d) \\ z' := (z_1 - z_2, z_3 - z_4, \dots, z_{d-1} - z_d) \end{cases} \quad (28)
⎩
⎨
⎧x′:=(x1−x2,x3−x4,…,xd−1−xd)ϵ′:=(ϵ1−ϵ2,ϵ3−ϵ4,…,ϵd−1−ϵd)z′:=(z1−z2,z3−z4,…,zd−1−zd)(28)
类似定义
ϵ
∗
′
\epsilon'_*
ϵ∗′我们有:
z
′
=
(
1
−
t
)
x
′
+
t
ϵ
′
.
(
29
)
z' = (1 - t)x' + t\epsilon'. \quad (29)
z′=(1−t)x′+tϵ′.(29)
注意到
ϵ
′
∼
N
(
0
,
2
I
d
/
2
)
\epsilon' \sim \mathcal{N}(0, 2I_{d/2})
ϵ′∼N(0,2Id/2),并且:
∥
x
′
∥
2
=
∑
i
=
1
d
/
2
(
x
2
i
−
1
−
x
2
i
)
2
≤
∑
i
=
1
d
/
2
2
(
x
2
i
−
1
−
x
2
i
)
≤
∑
i
=
1
d
/
2
2
(
x
2
i
−
2
−
x
2
i
)
≤
2
(
x
0
−
x
d
)
≤
4
,
(
30
)
\|x'\|^2 = \sum_{i=1}^{d/2} (x_{2i-1} - x_{2i})^2 \leq \sum_{i=1}^{d/2} 2(x_{2i-1} -x_{2i}) \leq \sum_{i=1}^{d/2} 2(x_{2i-2} -x_{2i}) \leq 2(x_0 - x_d) \leq 4, \quad (30)
∥x′∥2=i=1∑d/2(x2i−1−x2i)2≤i=1∑d/22(x2i−1−x2i)≤i=1∑d/22(x2i−2−x2i)≤2(x0−xd)≤4,(30)
其中为了方便起见,我们定义了
x
0
:
=
1
x_0 := 1
x0:=1。因此,我们有:
∥
z
′
∥
2
=
∥
(
1
−
t
)
x
′
+
t
ϵ
′
∥
2
=
(
1
−
t
)
2
∥
x
′
∥
2
+
t
2
∥
ϵ
′
∥
2
+
2
t
(
1
−
t
)
x
′
⋅
ϵ
′
.
(
31
)
\|z'\|^2 = \|(1 - t)x' + t\epsilon'\|^2 = (1 - t)^2 \|x'\|^2 + t^2 \|\epsilon'\|^2 + 2t(1 - t)x' \cdot \epsilon'. \quad (31)
∥z′∥2=∥(1−t)x′+tϵ′∥2=(1−t)2∥x′∥2+t2∥ϵ′∥2+2t(1−t)x′⋅ϵ′.(31)
考虑公式 (31) 中的三项。根据高维高斯随机变量的集中性,我们知道:
∥
ϵ
′
∥
2
≈
2
⋅
d
2
=
d
.
(
32
)
\|\epsilon'\|^2 \approx 2 \cdot \frac{d}{2} = d. \quad (32)
∥ϵ′∥2≈2⋅2d=d.(32)
因此,当
d
≫
1
t
d \gg \frac{1}{t}
d≫t1 和
d
≫
1
1
−
t
d \gg \frac{1}{1 - t}
d≫1−t1 时,公式 (31) 中的第二项是
Θ
(
d
)
\Theta(d)
Θ(d) 阶的,而第一项和第三项是
o
(
d
)
o(d)
o(d) 阶的。于是我们可以得出结论:
t
≈
∥
z
′
∥
∥
ϵ
′
∥
.
(
33
)
t \approx \frac{\|z'\|}{\|\epsilon'\|}. \quad (33)
t≈∥ϵ′∥∥z′∥.(33)
注意到公式 (33) 也可以应用于
t
∗
t_*
t∗ 和
ϵ
∗
′
\epsilon'_*
ϵ∗′,从而得到近似
∥
z
′
∥
≈
t
∗
∥
ϵ
∗
′
∥
\|z'\| \approx t_* \|\epsilon'_*\|
∥z′∥≈t∗∥ϵ∗′∥。由于
∥
ϵ
′
∥
\|\epsilon'\|
∥ϵ′∥ 和
∥
ϵ
∗
′
∥
\|\epsilon'_*\|
∥ϵ∗′∥ 都高度集中在
d
\sqrt{d}
d 附近,因此
t
t
t 集中在
t
∗
t^*
t∗ 附近。
接下来,我们希望通过量化 ∥ ϵ ′ ∥ \|\epsilon'\| ∥ϵ′∥ 的集中性来进一步限制 t t t 的方差。重要的是,这一性质仅依赖于标准高斯分布,我们将其总结为以下引理。
Lemma 1. 考虑一个标准高斯变量
a
∼
N
(
0
,
I
d
)
a \sim \mathcal{N}(0, I_d)
a∼N(0,Id),则:
lim
d
→
∞
Var
[
d
∥
a
∥
]
=
1
2
.
(
34
)
\lim_{d \to \infty} \text{Var}\left[\frac{\sqrt{d}}{\|a\|}\right] = \frac{1}{2}. \quad (34)
d→∞limVar[∥a∥d]=21.(34)
为了便于阅读,我们将这个引理的证明放在最后。利用这个引理来估计:
Var
t
∼
p
(
t
∣
z
)
[
t
]
=
Var
∥
ϵ
′
∥
[
∥
z
′
∥
∥
ϵ
′
∥
]
=
(
∥
z
′
∥
d
/
2
)
2
⋅
(
1
2
)
2
⋅
Var
r
:
=
∥
ϵ
′
∥
2
[
d
/
2
r
]
≈
∥
z
′
∥
2
d
2
⋅
1
2
⋅
1
2
=
∥
z
′
∥
2
4
d
2
.
(
35
)
\text{Var}_{t \sim p(t|z)}[t] = \text{Var}_{\|\epsilon'\|}\left[\frac{\|z'\|}{\|\epsilon'\|}\right] = \left(\frac{\|z'\|}{d/2}\right)^2 \cdot \left(\frac{1}{\sqrt{2}}\right)^2 \cdot \text{Var}_{r := \frac{\|\epsilon'\|}{\sqrt{2}}}\left[\frac{d/2}{r}\right] \approx \frac{\|z'\|^2}{d^2} \cdot \frac{1}{2} \cdot \frac{1}{2} = \frac{\|z'\|^2}{4d^2}. \quad (35)
Vart∼p(t∣z)[t]=Var∥ϵ′∥[∥ϵ′∥∥z′∥]=(d/2∥z′∥)2⋅(21)2⋅Varr:=2∥ϵ′∥[rd/2]≈d2∥z′∥2⋅21⋅21=4d2∥z′∥2.(35)
最后,我们注意到在高概率下,有:
∥
z
′
∥
≈
t
∗
∥
ϵ
∗
′
∥
≈
t
∗
d
2
.
(
36
)
\|z'\| \approx t_* \|\epsilon'_*\| \approx t^* \sqrt{\frac{d}{2}}. \quad (36)
∥z′∥≈t∗∥ϵ∗′∥≈t∗2d.(36)
将公式 (36) 代入公式 (35),我们得到了期望的结果公式 (27)。
4.3. Error of Effective Regression Targets
通过
p
(
t
∣
z
)
p(t|z)
p(t∣z),我们研究了有效回归目标
R
(
z
∣
t
)
R(z|t)
R(z∣t)和
R
(
z
)
R(z)
R(z)之间的误差。形式上定义:
E
(
z
)
:
=
E
t
∼
p
(
t
∣
z
)
[
∥
R
(
z
∣
t
)
−
R
(
z
)
∥
2
]
.
(
10
)
E(z) := \mathbb{E}_{t \sim p(t|z)} \left[ \| R(z|t) - R(z) \|^2 \right]. \quad (10)
E(z):=Et∼p(t∣z)[∥R(z∣t)−R(z)∥2].(10)
下证明这一误差 E ( z ) E(z) E(z)远小于 R ( z ) R(z) R(z)的范数:
结论 2(有效回归目标的误差):
考虑单个数据点
x
∈
[
−
1
,
1
]
d
x \in [-1, 1]^d
x∈[−1,1]d,噪声
ϵ
∼
N
(
0
,
I
)
\epsilon \sim \mathcal{N}(0, I)
ϵ∼N(0,I),时间步
t
∼
U
[
0
,
1
]
t \sim \mathcal{U}[0, 1]
t∼U[0,1],以及噪声数据
z
=
(
1
−
t
)
x
+
t
ϵ
z = (1 - t)x + t\epsilon
z=(1−t)x+tϵ。定义
R
(
z
)
R(z)
R(z)和
R
(
z
∣
t
)
R(z|t)
R(z∣t)为表 8 中的流匹配配置。给定由特定
t
∗
t^*
t∗生成的噪声图像
z
=
(
1
−
t
∗
)
x
+
t
∗
ϵ
z = (1 - t^*)x + t^*\epsilon
z=(1−t∗)x+t∗ϵ,式 (10) 中的均方误差
E
(
z
)
E(z)
E(z)可以近似为:
E
(
z
)
≈
1
2
(
1
+
σ
d
2
)
,
(
41
)
E(z) \approx \frac{1}{2} \left(1 + \sigma^2_d\right), \quad (41)
E(z)≈21(1+σd2),(41)
当数据维度
d
d
d满足
1
d
≪
t
∗
\frac{1}{d} \ll t^*
d1≪t∗且
1
d
≪
1
−
t
∗
\frac{1}{d} \ll 1 - t^*
d1≪1−t∗时成立。其中,
σ
2
\sigma^2
σ2表示数据集像素值平方的均值。
C.3 ---- p r o o f : proof: proof:
从
E
(
z
)
E(z)
E(z)的定义出发:
E
(
z
)
:
=
E
t
∼
p
(
t
∣
z
)
[
∥
R
(
z
∣
t
)
−
R
(
z
)
∥
2
]
=
E
t
∼
p
(
t
∣
z
)
[
∥
R
(
z
∣
t
)
−
E
t
′
∼
p
(
t
′
∣
z
)
[
R
(
z
∣
t
′
)
]
∥
2
]
.
(
42
)
E(z) := \mathbb{E}_{t \sim p(t|z)} \left[ \| R(z|t) - R(z) \|^2 \right] = \mathbb{E}_{t \sim p(t|z)} \left[ \left\| R(z|t) - \mathbb{E}_{t' \sim p(t'|z)} \left[ R(z|t') \right] \right\|^2 \right]. \quad (42)
E(z):=Et∼p(t∣z)[∥R(z∣t)−R(z)∥2]=Et∼p(t∣z)[
R(z∣t)−Et′∼p(t′∣z)[R(z∣t′)]
2].(42)
根据流匹配配置计算
R
(
z
∣
t
)
R(z|t)
R(z∣t):
R
(
z
∣
t
)
:
=
E
(
x
,
ϵ
)
∼
p
(
x
,
ϵ
∣
z
,
t
)
[
r
(
x
,
ϵ
,
t
)
]
=
E
(
x
,
ϵ
)
∼
p
(
x
,
ϵ
∣
z
,
t
)
[
ϵ
−
x
]
=
z
−
x
t
.
(
43
)
R(z|t) := \mathbb{E}_{(x,\epsilon) \sim p(x,\epsilon|z,t)} \left[ r(x, \epsilon, t) \right] = \mathbb{E}_{(x,\epsilon) \sim p(x,\epsilon|z,t)} \left[ \epsilon - x \right] = \frac{z - x}{t}. \quad (43)
R(z∣t):=E(x,ϵ)∼p(x,ϵ∣z,t)[r(x,ϵ,t)]=E(x,ϵ)∼p(x,ϵ∣z,t)[ϵ−x]=tz−x.(43)利用(43)得到:
E
(
z
)
=
∥
z
−
x
∥
2
⋅
Var
t
∼
p
(
t
∣
z
)
[
1
t
]
.
(
44
)
E(z) = \| z - x \|^2 \cdot \text{Var}_{t \sim p(t|z)} \left[ \frac{1}{t} \right]. \quad (44)
E(z)=∥z−x∥2⋅Vart∼p(t∣z)[t1].(44)
R ( z ) = E t ′ ∼ p ( t ′ ∣ z ) [ R ( z ∣ t ′ ) ] = E t ′ ∼ p ( t ′ ∣ z ) [ z − x t ′ ] . R(z) = \mathbb{E}_{t' \sim p(t'|z)} \left[ R(z|t') \right] = \mathbb{E}_{t' \sim p(t'|z)} \left[ \frac{z - x}{t'} \right]. R(z)=Et′∼p(t′∣z)[R(z∣t′)]=Et′∼p(t′∣z)[t′z−x]. 将 R ( z ∣ t ) R(z|t) R(z∣t)和 R ( z ) R(z) R(z)代入误差定义: E ( z ) = E t ∼ p ( t ∣ z ) [ ∥ z − x t − E t ′ ∼ p ( t ′ ∣ z ) [ z − x t ′ ] ∥ 2 ] . E(z) = \mathbb{E}_{t \sim p(t|z)} \left[ \left\| \frac{z - x}{t} - \mathbb{E}_{t' \sim p(t'|z)} \left[ \frac{z - x}{t'} \right] \right\|^2 \right]. E(z)=Et∼p(t∣z)[ tz−x−Et′∼p(t′∣z)[t′z−x] 2]. 由于 z − x z - x z−x与 t t t 无关,将其提取出来: E ( z ) = ∥ z − x ∥ 2 ⋅ E t ∼ p ( t ∣ z ) [ ∥ 1 t − E t ′ ∼ p ( t ′ ∣ z ) [ 1 t ′ ] ∥ 2 ] . E(z) = \| z - x \|^2 \cdot \mathbb{E}_{t \sim p(t|z)} \left[ \left\| \frac{1}{t} - \mathbb{E}_{t' \sim p(t'|z)} \left[ \frac{1}{t'} \right] \right\|^2 \right]. E(z)=∥z−x∥2⋅Et∼p(t∣z)[ t1−Et′∼p(t′∣z)[t′1] 2].
分别计算这两项。对于第一项,可以重写为:
∥
z
−
x
∥
2
=
t
∗
2
∥
x
−
ϵ
∗
∥
2
≈
t
∗
2
(
∥
x
∥
2
+
∥
ϵ
∗
∥
2
)
≈
t
∗
2
(
d
σ
d
2
+
d
)
=
t
∗
2
d
(
1
+
σ
d
2
)
.
(
45
)
\| z - x \|^2 = t^{*2} \| x - \epsilon^* \|^2 \approx t^{*2} \left( \| x \|^2 + \| \epsilon^* \|^2 \right) \approx t^{*2} \left( d\sigma^2_d + d \right) = t^{*2} d (1 + \sigma^2_d). \quad (45)
∥z−x∥2=t∗2∥x−ϵ∗∥2≈t∗2(∥x∥2+∥ϵ∗∥2)≈t∗2(dσd2+d)=t∗2d(1+σd2).(45)
这里,我们利用了
x
⋅
ϵ
∗
≪
∥
x
∥
∥
ϵ
∗
∥
x \cdot \epsilon^* \ll \| x \| \| \epsilon^* \|
x⋅ϵ∗≪∥x∥∥ϵ∗∥,以及
∥
ϵ
∗
∥
≈
d
\| \epsilon^* \| \approx \sqrt{d}
∥ϵ∗∥≈d的高概率性质。此外,
σ
d
2
=
∥
x
∥
2
d
\sigma^2_d = \frac{\| x \|^2}{d}
σd2=d∥x∥2,因为我们假设数据集中仅包含单个数据点。
对于第二项,注意到 p ( t ∣ z ) p(t|z) p(t∣z)的方差(如结论 1 所示)显著小于其集中均值 t ∗ t^* t∗。因此使用一阶展开近似方差:
Var t ∼ p ( t ∣ z ) [ 1 t ] ≈ Var t ∼ p ( t ∣ z ) [ 1 t ∗ − t − t ∗ t ∗ 2 ] = 1 t ∗ 4 Var t ∼ p ( t ∣ z ) [ t ] ≈ 1 2 t ∗ 2 d . ( 46 ) \text{Var}_{t \sim p(t|z)} \left[ \frac{1}{t} \right] \approx \text{Var}_{t \sim p(t|z)} \left[ \frac{1}{t^*} - \frac{t - t^*}{t^{*2}} \right] = \frac{1}{t^{*4}} \text{Var}_{t \sim p(t|z)} \left[ t \right] \approx \frac{1}{2t^{*2} d}. \quad (46) Vart∼p(t∣z)[t1]≈Vart∼p(t∣z)[t∗1−t∗2t−t∗]=t∗41Vart∼p(t∣z)[t]≈2t∗2d1.(46)
结合式 (45) 和式 (46),我们得到式 (41) 的估计:
E
(
z
)
≈
1
2
(
1
+
σ
d
2
)
.
(
11
)
E(z) \approx \frac{1}{2} \left(1 + \sigma^2_d\right). \quad (11)
E(z)≈21(1+σd2).(11)
结论2表明,对于足够高的维度 d d d,误差 E ( z ) E(z) E(z) 的大小(大约为 1)远小于目标 R ( z ) R(z) R(z) 的 L 2 L_2 L2 范数(大约为 d d d)。在我们的实际数据验证中,我们发现 E ( z ) E(z) E(z) 的大小约为 R ( z ) R(z) R(z) 的 1 / 1 0 3 1/10^3 1/103(见附录 A.2)。在这种情况下,回归到 R ( z ∣ t ) R(z|t) R(z∣t) 可以可靠地近似为回归到 R ( z ) R(z) R(z)。
4.4. Accumulated Error in Sampling
到目前为止,我们关注的是单步回归的误差。在去噪生成模型中,推理时的采样器是迭代的,我们研究了迭代采样器中累积的误差。
为了便于分析,我们假设神经网络 NN θ \text{NN}_\theta NNθ能够充分拟合有效回归目标 R ( z ∣ t ) R(z|t) R(z∣t)或 R ( z ) R(z) R(z)。在这一假设下,我们将式 (4) 中的 NN θ \text{NN}_\theta NNθ替换为 R R R。这引出了以下结论:
结论 3(累积误差的界):
考虑一个采样过程(式 (4)),共
N
N
N步,从相同的初始噪声
x
0
=
x
0
′
x_0 = x'_0
x0=x0′开始。在有噪声调节的情况下,采样器计算:
x
i
+
1
=
κ
i
x
i
+
η
i
R
(
x
i
∣
t
i
)
+
ζ
i
ϵ
~
i
,
x_{i+1} = \kappa_i x_i + \eta_i R(x_i | t_i) + \zeta_i \tilde{\epsilon}_i,
xi+1=κixi+ηiR(xi∣ti)+ζiϵ~i,
而在无噪声调节的情况下,采样器计算:
x
i
+
1
′
=
κ
i
x
i
′
+
η
i
R
(
x
i
′
)
+
ζ
i
ϵ
~
i
.
x'_{i+1} = \kappa_i x'_i + \eta_i R(x'_i) + \zeta_i \tilde{\epsilon}_i.
xi+1′=κixi′+ηiR(xi′)+ζiϵ~i.
假设
∥
R
(
x
i
′
∣
t
i
)
−
R
(
x
i
∣
t
i
)
∥
/
∥
x
i
′
−
x
i
∥
≤
L
i
\|R(x'_i | t_i) - R(x_i | t_i)\| / \|x'_i - x_i\| \leq L_i
∥R(xi′∣ti)−R(xi∣ti)∥/∥xi′−xi∥≤Li且
∥
R
(
x
i
′
)
−
R
(
x
i
′
∣
t
i
)
∥
≤
δ
i
\|R(x'_i) - R(x'_i | t_i)\| \leq \delta_i
∥R(xi′)−R(xi′∣ti)∥≤δi,则可以证明采样器输出
x
N
x_N
xN和
x
N
′
x'_N
xN′之间的误差有界:
∥
x
N
−
x
N
′
∥
≤
A
0
B
0
+
A
1
B
1
+
⋯
+
A
N
−
1
B
N
−
1
,
(
12
)
\|x_N - x'_N\| \leq A_0 B_0 + A_1 B_1 + \dots + A_{N-1} B_{N-1}, \quad (12)
∥xN−xN′∥≤A0B0+A1B1+⋯+AN−1BN−1,(12)
其中:
A
i
=
∏
j
=
i
+
1
N
−
1
(
κ
i
+
∣
η
i
∣
L
i
)
,
B
i
=
∣
η
i
∣
δ
i
.
A_i = \prod_{j=i+1}^{N-1} (\kappa_i + |\eta_i| L_i), \quad B_i = |\eta_i| \delta_i.
Ai=j=i+1∏N−1(κi+∣ηi∣Li),Bi=∣ηi∣δi.这些参数取决于调度方案和数据集(Derivation in Appendix C.4)。
这里,关于 δ i \delta_i δi的假设可以近似满足(如结论 2 所示)。关于 L i L_i Li的假设将 R ( ⋅ ∣ t ) R(\cdot | t) R(⋅∣t)建模为 Lipschitz 连续函数。尽管这一假设在真实数据中无法完全成立,但我们通过实验发现,选择合适的 L i L_i Li可以确保 Lipschitz 条件以高概率成立(见附录 A.3)。
C.4 ---- p r o o f : proof: proof:
定义
a
i
:
=
κ
i
+
∣
η
i
∣
L
i
a_i := \kappa_i + |\eta_i| L_i
ai:=κi+∣ηi∣Li和
b
i
:
=
∣
η
i
∣
δ
i
b_i := |\eta_i| \delta_i
bi:=∣ηi∣δi。则有:
∥
x
i
+
1
′
−
x
i
+
1
∥
=
∥
κ
i
(
x
i
′
−
x
i
)
+
η
i
(
R
(
x
i
′
)
−
R
(
x
i
∣
t
i
)
)
∥
.
(
48
)
\| x'_{i+1} - x_{i+1} \| = \left\| \kappa_i (x'_i - x_i) + \eta_i \left( R(x'_i) - R(x_i | t_i) \right) \right\|. \quad (48)
∥xi+1′−xi+1∥=∥κi(xi′−xi)+ηi(R(xi′)−R(xi∣ti))∥.(48)
这里我们假设在有噪声调节和无噪声调节的采样过程中添加了相同的噪声
ϵ
~
i
\tilde{\epsilon}_i
ϵ~i。
利用三角不等式可得:
∥
x
i
+
1
′
−
x
i
+
1
∥
≤
κ
i
∥
x
i
′
−
x
i
∥
+
∣
η
i
∣
∥
R
(
x
i
′
)
−
R
(
x
i
′
∣
t
i
)
∥
+
∣
η
i
∣
∥
R
(
x
i
′
∣
t
i
)
−
R
(
x
i
∣
t
i
)
∥
≤
a
i
∥
x
i
′
−
x
i
∥
+
b
i
.
(
49
)
\| x'_{i+1} - x_{i+1} \| \leq \kappa_i \| x'_i - x_i \| + |\eta_i| \| R(x'_i) - R(x'_i | t_i) \| + |\eta_i| \| R(x'_i | t_i) - R(x_i | t_i) \| \leq a_i \| x'_i - x_i \| + b_i. \quad (49)
∥xi+1′−xi+1∥≤κi∥xi′−xi∥+∣ηi∣∥R(xi′)−R(xi′∣ti)∥+∣ηi∣∥R(xi′∣ti)−R(xi∣ti)∥≤ai∥xi′−xi∥+bi.(49)
通过归纳法证明以下界:
∥
x
n
′
−
x
n
∥
≤
∑
j
=
0
n
−
1
(
∏
k
=
j
+
1
n
−
1
a
k
)
b
j
,
(
50
)
\| x'_n - x_n \| \leq \sum_{j=0}^{n-1} \left( \prod_{k=j+1}^{n-1} a_k \right) b_j, \quad (50)
∥xn′−xn∥≤j=0∑n−1
k=j+1∏n−1ak
bj,(50)
其中
∏
k
=
j
+
1
n
−
1
a
k
\prod_{k=j+1}^{n-1} a_k
∏k=j+1n−1ak在
j
=
n
−
1
j = n-1
j=n−1时定义为 1。
对于基例
n
=
1
n = 1
n=1,需要证明:
∥
x
1
′
−
x
1
∥
≤
b
0
,
(
51
)
\| x'_1 - x_1 \| \leq b_0, \quad (51)
∥x1′−x1∥≤b0,(51)
这直接由式 (49) 当
i
=
0
i = 0
i=0时得出。
现在假设界对某个
n
n
n成立,即:
∥
x
n
′
−
x
n
∥
≤
∑
j
=
0
n
−
1
(
∏
k
=
j
+
1
n
−
1
a
k
)
b
j
+
(
∏
k
=
0
n
−
1
a
k
)
∥
x
0
′
−
x
0
∥
.
(
52
)
\| x'_n - x_n \| \leq \sum_{j=0}^{n-1} \left( \prod_{k=j+1}^{n-1} a_k \right) b_j + \left( \prod_{k=0}^{n-1} a_k \right) \| x'_0 - x_0 \|. \quad (52)
∥xn′−xn∥≤j=0∑n−1
k=j+1∏n−1ak
bj+(k=0∏n−1ak)∥x0′−x0∥.(52)
要证明它对
n
+
1
n + 1
n+1也成立。应用式 (49),得到:
∥
x
n
+
1
′
−
x
n
+
1
∥
≤
a
n
∥
x
n
′
−
x
n
∥
+
b
n
.
(
53
)
\| x'_{n+1} - x_{n+1} \| \leq a_n \| x'_n - x_n \| + b_n. \quad (53)
∥xn+1′−xn+1∥≤an∥xn′−xn∥+bn.(53)
将归纳假设代入
∥
x
n
′
−
x
n
∥
\| x'_n - x_n \|
∥xn′−xn∥:
∥
x
n
+
1
′
−
x
n
+
1
∥
≤
a
n
∑
j
=
0
n
−
1
(
∏
k
=
j
+
1
n
−
1
a
k
)
b
j
+
b
n
=
∑
j
=
0
n
(
∏
k
=
j
+
1
n
a
k
)
b
j
.
(
54
)
\| x'_{n+1} - x_{n+1} \| \leq a_n \sum_{j=0}^{n-1} \left( \prod_{k=j+1}^{n-1} a_k \right) b_j + b_n = \sum_{j=0}^{n} \left( \prod_{k=j+1}^{n} a_k \right) b_j. \quad (54)
∥xn+1′−xn+1∥≤anj=0∑n−1
k=j+1∏n−1ak
bj+bn=j=0∑n
k=j+1∏nak
bj.(54)
因此,对
n
+
1
n + 1
n+1成立。通过归纳法,误差界对所有
n
n
n成立。取
n
=
N
n = N
n=N即得所需结果。
结论 3 表明,调度参数 κ i \kappa_i κi和 η i \eta_i ηi对误差界的估计有重要影响。不同方法的调度方案不同,因此在无噪声调节的情况下,它们的行为可能截然不同。
讨论: 误差界的估计可以在不训练神经网络的情况下计算:它仅依赖于调度方案和数据集。此外,我们对“误差”界的分析表明,噪声调节的变体更准确,而无噪声调节的变体试图近似它。事实上,没有理由认为前者一定是更准确的生成模型。然而,在实验中,我们发现无噪声调节的模型在某些情况下可以优于其噪声调节的对应模型。
5. A Noise Unconditional Diffusion Model
除了研究现有模型外,我们还设计了一种专门针对无噪声调节的扩散模型。我们的目标是找到在无噪声调节下更鲁棒的调度函数,同时仍保持竞争力。为此,我们在高效的 EDM 框架(Karras et al., 2022)基础上进行修改,调整其调度函数。
EDM 的核心组件是一个“预条件”去噪器:
c
skip
(
t
)
z
^
+
c
out
(
t
)
NN
θ
(
c
in
(
t
)
z
^
∣
t
)
.
c_{\text{skip}}(t) \hat{z} + c_{\text{out}}(t) \text{NN}_\theta \left( c_{\text{in}}(t) \hat{z} | t \right).
cskip(t)z^+cout(t)NNθ(cin(t)z^∣t).
这里,
z
^
:
=
x
+
t
ϵ
\hat{z} := x + t\epsilon
z^:=x+tϵ是在
c
in
(
t
)
c_{\text{in}}(t)
cin(t)归一化之前的噪声输入,我们简单地设置为:
c
in
(
t
)
=
1
1
+
t
2
.
c_{\text{in}}(t) = \frac{1}{\sqrt{1 + t^2}}.
cin(t)=1+t21.针对无噪声调节场景,我们采用的主要修改是:
c
out
(
t
)
=
1.
c_{\text{out}}(t) = 1.
cout(t)=1.作为参考,EDM 设置
c
out
(
t
)
=
σ
d
t
σ
d
2
+
t
2
c_{\text{out}}(t) = \frac{\sigma_d t}{\sqrt{\sigma_d^2 + t^2}}
cout(t)=σd2+t2σdt,其中
σ
d
\sigma_d
σd是数据的标准差。由于
c
out
(
t
)
c_{\text{out}}(t)
cout(t)是应用于
NN
θ
\text{NN}_\theta
NNθ的系数,我们期望将其设置为常数可以避免网络建模与
t
t
t 相关的尺度。在实验中(第 6.2 节),这种简单设计表现出比 EDM 更低的误差界(结论 3)。我们将此模型命名为 uEDM,即(无噪声调节的)EDM。为了完整性,uEDM 的最终调度函数见附录 D.5。
D.5. Our uEDM Model in the Formulation
在第5节中,我们设计的 uEDM 模型 是 EDM 的一个改进版本。唯一的修改是我们改变了
c
in
(
t
)
c_{\text{in}}(t)
cin(t) 和
c
out
(
t
)
c_{\text{out}}(t)
cout(t) 的定义:
{
c
in
(
t
)
=
1
a
t
2
+
σ
d
2
c
out
(
t
)
=
t
σ
d
a
t
2
+
σ
d
2
\begin{cases} c_{\text{in}}(t) = \frac{1}{\sqrt{a t^2 + \sigma_d^2}} \\ c_{\text{out}}(t) = \frac{t \sigma_d}{\sqrt{a t^2 + \sigma_d^2}} \end{cases}
⎩
⎨
⎧cin(t)=at2+σd21cout(t)=at2+σd2tσd改为:
{
c
in
(
t
)
=
1
t
2
+
1
c
out
(
t
)
=
1
\begin{cases} c_{\text{in}}(t) = \frac{1}{\sqrt{t^2 + 1}} \\ c_{\text{out}}(t) = 1 \end{cases}
{cin(t)=t2+11cout(t)=1并保持所有其他配置与原始 EDM 模型相同。
在附录 D.3 中,我们已经推导了 EDM 模型的一般形式系数,其中包含函数 c in ( t ) c_{\text{in}}(t) cin(t)、 c out ( t ) c_{\text{out}}(t) cout(t)、 c skip ( t ) c_{\text{skip}}(t) cskip(t) 和 λ ( t ) \lambda(t) λ(t)(见公式 (65) 和 (67))。通过代入新的函数集,我们可以推导出 uEDM 的系数,如表9所示。
6. Experiments
实验设置:
我们通过实验评估噪声调节对多种模型的影响:
- 扩散模型:iDDPM(Nichol & Dhariwal, 2021)、DDIM(Song et al., 2021a)、ADM(Dhariwal & Nichol, 2021)、EDM(Karras et al., 2022)以及 uEDM(第 5 节)。
- 基于流的模型:采用 Rectified Flow(1-RF)(Liu et al., 2023)的实现,这是流匹配(Flow Matching, FM)(Lipman et al., 2023)的一种形式。
- 一致性模型:iCT(Song & Dhariwal, 2024)和 ECM(Geng et al., 2025)。
我们的主要实验是在 CIFAR-10(Krizhevsky et al., 2009)上的无类别条件生成任务,额外结果包括 ImageNet 32×32(Deng et al., 2009)和 FFHQ 64×64(Karras et al., 2019)。我们评估 Fréchet Inception Distance(FID)(Heusel et al., 2017)并报告函数评估次数(NFE)。为了公平比较,所有方法均基于我们尽可能忠实的重新实现(见附录 B.3):每种方法在有噪声调节和无噪声调节的情况下使用相同的实现运行。
6.1. Main Observations
表 2 总结了不同生成模型在有噪声调节(“w/ t”)和无噪声调节(“w/o t”)下的 FID 变化。图 5 展示了一些定性结果。我们得出以下观察:
- 与普遍认知相反,噪声调节并不是大多数基于去噪的模型正常运行的必要条件。大多数变体在无噪声调节下仍能正常工作,表现出轻微但可接受的性能下降(黄色标记)。
- 更令人惊讶的是,一些基于流的变体在去除噪声调节后可以实现 FID 的提升(绿色标记)。总体而言,本文研究的基于流的方法对是否使用噪声调节不敏感。我们推测,部分原因是流匹配(FM)的回归目标与 t t t无关(见表 1: c = − 1 c = -1 c=−1, d = 1 d = 1 d=1)。
- uEDM 变体(第 5 节)在无噪声调节下实现了 2.23 的竞争性 FID,缩小了与噪声调节方法的强基线(此处为 EDM 的 1.99,或 Karras 等人 (2022) 报告的 1.97)之间的差距。
- 一致性模型(此处为 iCT 和 ECM)虽然与扩散模型相关,但目标函数有显著不同,也能在无噪声调节下表现良好。尽管 iCT 对 t t t调节的细节高度敏感(见 Song & Dhariwal (2024)),但我们发现去除噪声调节并不会导致灾难性失败。
- 在我们研究的所有变体中,只有“DDIM w/ ODE 采样器”出现了灾难性失败(红色标记),FID 显著恶化至 40.90。图 5 (a) 展示了其定性行为:模型仍能理解形状和结构,但存在“过冲”或“欠冲”,生成过饱和或噪声较多的结果。
总结:我们的实验结果表明,噪声调节虽然通常有助于提高生成质量,但对于去噪生成模型的基本功能并非必不可少。
6.2. Analysis
误差界:
在图 4 中,我们通过实验评估了不同方法在 100 步 ODE 采样器下的误差界(结论 3)。误差界的计算仅依赖于每种方法的调度方案以及数据集(详见附录 A.3)。
图 4 显示,理论误差界与实验行为之间存在强相关性。具体来说,DDIM 的灾难性失败可以通过其误差界高出数个数量级来解释。另一方面,EDM、FM 和 uEDM 的误差界始终较小,这与它们在无噪声调节下的稳健表现一致。
这些发现表明,我们分析中推导的误差界可以可靠地预测模型对去除噪声调节的鲁棒性。重要的是,误差界可以仅基于模型的公式和数据集统计量计算,而无需训练神经网络。因此,它可以在模型训练之前,为评估给定的去噪生成模型是否能在无噪声调节下有效运行提供有价值的工具。
随机性水平:
在表 2 中,DDIM 仅在确定性 ODE 采样器下失败;在使用 SDE 采样器(即 DDPM 采样器)时,它仍能表现良好。基于这一观察,我们在图 6 中进一步研究了随机性水平。
具体来说,利用 DDIM(Song et al., 2021a)的灵活性,可以通过调整式 (4) 中的 η i \eta_i ηi和 ζ i \zeta_i ζi(见附录 D.2 中的式 (63))引入一个参数 λ \lambda λ,在 ODE 和 SDE 采样器之间进行插值。如图 6 所示,增加 λ \lambda λ(更高的随机性)会持续改善 FID 分数。当 λ = 1 \lambda = 1 λ=1时,DDIM 的行为类似于 iDDPM。
我们推测,这种现象可以通过误差传播动力学来解释。结论 3 中的理论误差界假设了最坏情况下的误差累积,但在实践中,随机采样能够实现误差抵消。ODE 采样器的一致噪声模式导致相关误差,而 SDE 采样器在每一步注入的独立噪声促进了误差抵消。这种误差抵消机制可以随着随机性的增加提高性能,iDDPM 和 ADM 的结果(表 2)进一步证明了这一点。
替代噪声调节场景:
到目前为止,我们主要关注从现有模型中去除噪声调节。这类似于图像处理领域中的盲图像去噪。根据噪声水平估计的研究方向,我们还可以让网络显式或隐式预测噪声水平。具体来说,我们考虑了以下四种情况(图 7):
- 标准噪声调节基线:
这是我们一直比较的基准。见图 7(a)。 - 噪声调节变体:
噪声水平由另一个网络预测。在此变体中,噪声预测器 P P P是一个预训练的小网络,用于回归 t t t。在训练 NN θ \text{NN}_\theta NNθ时, P P P被冻结, NN θ \text{NN}_\theta NNθ以预测的 t ′ t' t′为条件,而非真实的 t t t。见图 7(b)。 - “无监督”噪声调节变体:
此架构与变体 (b) 完全相同,只是噪声预测器 P P P是从头开始训练的,没有任何真实 t t t的监督。如果将 P P P和 NN θ \text{NN}_\theta NNθ联合视为一个更大的网络,这也代表了一种无噪声调节模型的设计。见图 7 c c c。 - 标准无噪声调节基线:
这是我们一直在研究的情况。见图 7(d)。
图 7 比较了所有四种变体。值得注意的是,所有研究的模型(iDDPM、EDM 和 FM)都表现出一致的行为:变体 (b)、 c c c和 (d) 的结果相似。这表明 (b)、 c c c 和 (d) 可能受到相同类型的误差影响,即 t t t估计的不确定性。需要注意的是,即使在变体 (b) 中,噪声预测器是在给定真实 t t t的情况下预训练的,但由于 p ( t ∣ z ) p(t|z) p(t∣z)中存在不可避免的小不确定性(见第 4.2 节),其预测也无法完美。因此,有监督预训练的噪声预测器 (b) 与无监督的对应变体 c c c 的行为差异不大。