摘要
在本文中,我们提出了一种基于扩散模型的高效遥感虚假样本生成(RSFSG)框架,以生成与真实场景一致且可控的样本。首先,为了缓解扩散模型因大规模参数带来的高时间消耗,我们提出了一种多频动态知识蒸馏方法,这种方法基于预测的高斯噪声的一致功率谱。多频知识转移使轻量化模型能够在扩散过程的不同阶段,从教师模型中学习不同频率的输出。
其次,为了解决扩散模型训练缓慢的问题,我们提出了一种渐进训练策略(PTS),该策略受深度网络从低频到高频拟合机制的启发。PTS 通过先学习低分辨率下的低频信息(如颜色),再逐步转向高分辨率的纹理细节图像,从而加速模型的拟合过程。上述两种方法在轻量化参数下实现了良好的生成性能,并将训练时间缩短了一半。
大量评估表明,我们提出的模型在可控的遥感虚假样本生成任务中显著优于现有的最先进方法。据我们所知,这是首次在 RSFSG 任务中引入扩散模型并获得良好性能;代码和预训练文件已在 https://github.com/xiaoyuan1996/Controllable-FakeSample-Generation-for-RS 上发布。
关键词:扩散模型、多频动态知识蒸馏、渐进训练策略(PTS)、遥感虚假样本生成(RSFSG)
解释:
1. 任务背景:
遥感(Remote Sensing)是指通过卫星或无人机拍摄地球表面图像的技术。AI 模型需要大量高质量数据进行训练,但获取这些真实数据很难,因此研究人员会用计算机生成一些「虚拟样本」,让模型学得更好。本文提出的方法正是为了高效生成这些虚拟遥感数据。
2. 扩散模型是什么?
扩散模型是一种先进的图像生成方法,它通过「从模糊到清晰」的过程逐渐去除噪声,生成逼真的图像。可以把它想象成在一片浓雾中找到一张清晰的图片:先给图像加很多噪声,然后逐步学会如何去除这些噪声,最后得到一张新的图片。
3. 遇到的问题:
- 时间太长:扩散模型训练需要很长时间,因为模型参数特别多。
- 训练慢:在一开始,模型学习得很慢,尤其是高分辨率的细节。
4. 本文的解决方案:
-
多频动态知识蒸馏:
这是为了加速轻量化模型的训练。简单来说,模型像学生一样,向一个大模型(老师模型)学习不同频率的知识:- 低频部分:学习基本的颜色和大轮廓
- 高频部分:学习复杂的细节和纹理
这样训练速度更快,同时保持了生成质量。
-
渐进训练策略(PTS):
模型先从简单的低分辨率图像(只关注颜色和大致轮廓)学起,然后逐步训练复杂的高分辨率细节,让模型更加高效地掌握任务。
5. 研究成果:
- 作者的方案在训练时间减半的情况下,生成的遥感虚假样本质量超过了现有方法。
- 这是首次把扩散模型应用在遥感数据生成领域,并且取得了非常好的效果。
I. INTRODUCTION
近年来,人工智能在遥感领域的研究与应用对军事和民用领域都产生了巨大影响。然而,现有数据的标注能力限制了大量样本的获取,这进一步制约了深度模型的性能。于是,**遥感虚假样本生成(RSFSG)**自动化逐渐成为研究人员关注的热门方向。RSFSG 是一种用于批量增加遥感图像的方法,这些生成的样本可以用于深度学习研究。
作为图像生成任务的一个分支,RSFSG 仍处于早期研究阶段。早期的图像生成任务基于深度生成模型,这些模型根据概率分布的不同表现形式可以分为两类:
- 第一类:基于似然的生成模型。这些模型通过最大似然准则学习数据的概率分布,包括自回归模型、流模型以及变分自编码器(VAE)。
- 第二类:隐式生成模型。这类模型不明确表示概率分布,比如生成对抗网络(GANs)。GANs 通过对抗学习的方式,使生成器能够从噪声直接生成样本。
解释:
1. 背景:
遥感技术(Remote Sensing)通过卫星、无人机等设备获取地球表面的图片。这些数据对于军事监控、灾害应急和环境监测等都非常重要。然而,深度学习模型要学得好,需要大量标注好的训练数据,但标注数据既贵又费时。因此,如何自动生成虚拟样本来替代一部分真实数据,成为了研究的热点。
2. 什么是 RSFSG?
RSFSG 是指用算法批量生成遥感图像样本,这些样本和真实数据看起来一样,可以帮助模型在缺乏真实数据时继续训练。就像用假的数据教会模型学会正确识别一样。
3. 已有的生成模型种类:
RSFSG 属于图像生成任务的分支,它背后有一些深度生成模型作为支持。目前常见的模型分为两大类:
-
基于似然的生成模型:这些模型专注于模拟数据的概率分布,确保生成的样本和真实数据统计上相似。代表模型包括:
- 自回归模型:一步步生成数据,就像一个故事一个词地写出来。
- 流模型:从简单的数据转换成复杂样本。
- 变分自编码器(VAE):用压缩和解压的方式学习生成样本。
-
隐式生成模型:这类模型不会明确给出生成数据的概率分布,而是通过生成-对抗的方式来训练。
- 生成对抗网络(GAN):想象一个「画家」和「鉴赏家」比赛的过程。画家(生成器)想画得像真的一样,而鉴赏家(判别器)负责挑出假画。两者不断竞争,让生成的图片越来越逼真。
在过去两年中,扩散模型(diffusion model)逐渐显示出了其优势,与GAN(生成对抗网络)和VAE(变分自编码器)相比,它具有更灵活的架构,并能更精确地计算对数似然。扩散模型通过学习噪声导致的信息衰减,然后利用所学到的模式生成图像,在许多应用领域表现出色,例如计算机视觉、多模态建模等,并且在样本生成方面甚至超过了GAN和VAE。
扩散模型的出现为高质量的遥感虚假样本生成(RSFSG)提供了可能性。然而,由于模型参数庞大,生成高分辨率遥感图像的训练和推理过程耗时较长。为了缓解这个问题,本文从轻量化模型和训练策略入手,优化了传统扩散模型。
-
一方面,虽然轻量化参数能够提高运行效率,但由于其拟合能力不足,无法像大参数模型那样获得精确的噪声估计。我们还发现,在参数较少的情况下,扩散模型在不同采样周期输出的噪声差异更大。为了提升轻量模型的噪声估计能力,我们尝试让模型自适应地从教师网络中学习不同频率信号,从而获得具有一致输出功率的噪声分布。
-
另一方面,传统扩散模型通常使用固定分辨率进行训练,但这种固定分辨率使得大量迭代训练时间极其漫长。受深度网络从低频到高频拟合机制的启发,我们考虑是否可以让扩散模型从颜色等低频信息开始,逐步学习纹理等高频特征。为此,我们设计了一种渐进训练策略(PTS),通过从低分辨率到高分辨率逐步学习,实现了从易到难的可控训练。
通过上述两种方法,扩散模型在轻量化参数的条件下取得了良好的生成性能,并且训练时间仅为原来的一半。
解释:
这段话主要介绍了如何用扩散模型解决遥感虚假样本生成(RSFSG)的问题,以及如何通过优化策略让模型更快、更高效地工作。
-
什么是扩散模型?
扩散模型是一种逐步学习噪声消失过程的模型,可以生成高质量的图像。它比传统的GAN(生成对抗网络)和VAE(变分自编码器)更加灵活,也能更精确地描述数据的分布。 -
问题:扩散模型训练很慢
尽管扩散模型生成效果很好,但它训练时间特别长,因为它参数太多,尤其是处理高分辨率的遥感图像时。 -
解决方案:轻量化与渐进训练
- 轻量化模型:用更少的参数来加快速度。但少了参数后,模型的拟合能力会下降,噪声估计不准确。所以,我们让轻量化模型从一个更强的教师网络学习不同频率的信息,提升噪声处理能力。
- 渐进训练策略(PTS):先从低分辨率(例如只学习颜色)开始训练,然后再逐步学习更复杂的细节(如纹理)。这种方法让模型训练得更快,且效果不会下降。
-
成果
最终,这种优化后的模型在一半的训练时间内就能达到很好的效果,甚至比传统模型更高效。
这篇文章的重点在于,利用轻量化模型和渐进训练策略,扩散模型可以更快地生成高分辨率的遥感图像,并且其性能超越了很多现有方法。
总体而言,我们的研究主要贡献如下:
- 提出了一种基于扩散模型的高效且可控的遥感虚假样本生成(RSFSG)框架。据我们所知,这是首次将扩散模型引入RSFSG任务中,并取得了优异的性能。
- 设计了一种多频率动态知识蒸馏方法,基于扩散模型一致输出功率来实现。这种知识传递方法通过平衡轻量化模型的频段输出,取得了出色的效果。
- 提出了渐进训练策略(PTS),从低频的颜色信息到高频的纹理信息逐步学习,加快了扩散过程。
大量实验表明,我们提出的模型在遥感虚假样本生成任务上显著超越了现有的最先进方法。文章的其余部分安排如下:
- 第二部分:简要总结了与本研究相关的工作。
- 第三部分:详细介绍了高效的扩散模型学习方法和训练策略。
- 第四部分:进行大量实验,提供定性和定量数据,以支持RSFSG任务。
- 第五部分:总结给出研究结论。
图1. 基于扩散模型的RSFSG框架。
图中蓝线部分代表前向扩散过程,红线部分代表伪样本生成阶段。
图2. 提出的高效可控RSFSG框架。
(a) 原始的反向扩散过程。
(b) 基于多频知识传递的设计扩散蒸馏。
( c) 用于加速扩散学习的渐进训练策略(PTS)。
解释:
图2展示了一个新的框架,用于高效和可控的遥感虚假样本生成(RSFSG),它包含三个主要部分:
-
原始反向扩散过程 (a):
这一部分展示了标准的反向扩散过程,模型如何从噪声开始,逐步去掉噪声并重建图像。这是整个生成过程的基础。 -
基于多频知识传递的设计扩散蒸馏 (b):
这里引入了一种新方法,允许模型从一个强大的“老师”模型中学习,获取不同频率的信息。通过这种方式,模型能更好地理解图像中的细节,提升生成效果。 -
用于加速扩散学习的渐进训练策略 ( c):
这部分描述了一种新的训练方法,模型从简单的低频信息(如颜色)开始学习,逐步过渡到复杂的高频信息(如纹理)。这样可以更快地训练模型,并在较短时间内获得高质量的输出。
整体上,这个框架旨在提高生成的效率和控制能力,使得生成的虚假样本更加真实和符合需求。
III. METHOD
本节首先回顾了条件扩散模型(Conditional Diffusion Model),然后详细介绍了图2中的多频动态扩散知识蒸馏和用于加速扩散学习的渐进训练策略(PTS)。
A. 条件扩散模型(Conditional Diffusion Model)
条件扩散模型基于DDPM(去噪扩散概率模型)。对于一个数据集 D = { x i } i = 0 N D = \{x_i\}_{i=0}^N D={xi}i=0N,DDPM 学习数据分布 p ( x ) p(x) p(x) 并生成与该分布一致的样本。与 DDPM 不同的是,给定数据对组成的数据集 D = { ( x i , y i ) } i = 0 N D = \{(x_i, y_i)\}_{i=0}^N D={(xi,yi)}i=0N 时,条件 DDPM 学习条件分布 p ( y ∣ x ) p(y \mid x) p(y∣x),并在推理时根据给定的 y y y 生成样本。
条件 DDPM 的特点使其在超分辨率、去模糊、去雾等下游任务中具备潜力。DDPM 和条件 DDPM 的核心思想是通过迭代去噪,将随机高斯噪声逐步生成符合期望分布的样本。
1. 高斯扩散过程:
在生成样本之前,首先需要经历高斯扩散过程,即将输入图像
x
0
∼
q
(
x
)
x_0 \sim q(x)
x0∼q(x) 逐步添加高斯噪声,直到第
T
T
T 步时,图像
x
T
x_T
xT 转变为各向同性的标准高斯分布,即
x
T
∼
N
(
0
,
I
)
x_T \sim \mathcal{N}(0, I)
xT∼N(0,I)。
这个过程是一个马尔可夫链,其中给定
x
t
−
1
x_{t-1}
xt−1 时,每一时刻
x
t
x_t
xt 的概率为:
q
(
x
t
∣
x
t
−
1
)
:
=
N
(
x
t
;
α
t
x
t
−
1
,
(
1
−
α
t
)
I
)
q(x_t \mid x_{t-1}) := \mathcal{N}(x_t; \sqrt{\alpha_t} \, x_{t-1}, (1 - \alpha_t)I)
q(xt∣xt−1):=N(xt;αtxt−1,(1−αt)I)
此外,
x
t
x_t
xt 相对于初始图像
x
0
x_0
x0 的条件分布为:
q
(
x
t
∣
x
0
)
=
∏
t
=
1
T
q
(
x
t
∣
x
t
−
1
)
=
N
(
x
t
;
γ
t
x
0
,
(
1
−
γ
t
)
I
)
q(x_t \mid x_0) = \prod_{t=1}^T q(x_t \mid x_{t-1}) = \mathcal{N}(x_t; \sqrt{\gamma_t} \, x_0, (1 - \gamma_t)I)
q(xt∣x0)=t=1∏Tq(xt∣xt−1)=N(xt;γtx0,(1−γt)I)
其中,
α
t
∈
(
0
,
1
)
\alpha_t \in (0, 1)
αt∈(0,1) 随时间
t
t
t 线性递增,
γ
t
=
∏
i
=
1
t
α
i
\gamma_t = \prod_{i=1}^t \alpha_i
γt=∏i=1tαi。当
T
→
∞
T \to \infty
T→∞ 时,
x
T
x_T
xT 转变为标准高斯噪声。
为使均值和方差可微,根据上述公式,我们有:
x
t
=
α
t
x
t
−
1
+
1
−
α
t
ε
=
γ
t
x
0
+
1
−
γ
t
ε
ˉ
t
x_t = \sqrt{\alpha_t} \, x_{t-1} + \sqrt{1 - \alpha_t} \, \varepsilon = \sqrt{\gamma_t} \, x_0 + \sqrt{1 - \gamma_t} \, \bar{\varepsilon}_t
xt=αtxt−1+1−αtε=γtx0+1−γtεˉt
其中,
ε
,
ε
ˉ
t
∼
N
(
0
,
I
)
\varepsilon, \bar{\varepsilon}_t \sim \mathcal{N}(0, I)
ε,εˉt∼N(0,I),
ε
ˉ
t
\bar{\varepsilon}_t
εˉt 表示从标准高斯噪声采样出的值。
2. 反向扩散过程:
若将上述过程反转,标准高斯噪声
x
T
∼
N
(
0
,
I
)
x_T \sim \mathcal{N}(0, I)
xT∼N(0,I) 将逐步去噪,还原为图像
x
0
x_0
x0,这一过程称为采样(sampling)。对于条件 DDPM,除了输入高斯噪声外,还需要引入条件
c
c
c,以控制去噪过程的多样性。为了学习反向过程
q
(
x
^
t
−
1
∣
x
^
t
)
q(\hat{x}_{t-1} \mid \hat{x}_t)
q(x^t−1∣x^t),我们通过模型
p
θ
p_\theta
pθ 近似以下概率分布:
p
θ
(
x
^
t
−
1
∣
x
^
t
,
c
)
:
=
N
(
μ
θ
(
x
^
t
,
c
,
γ
t
)
,
Σ
θ
(
x
^
t
,
c
,
γ
t
)
)
p_\theta(\hat{x}_{t-1} \mid \hat{x}_t, c) := \mathcal{N}(\mu_\theta(\hat{x}_t, c, \gamma_t), \Sigma_\theta(\hat{x}_t, c, \gamma_t))
pθ(x^t−1∣x^t,c):=N(μθ(x^t,c,γt),Σθ(x^t,c,γt))
其中,
c
c
c 表示反向扩散的指导条件。
尽管 q ( x t − 1 ∣ x t ) q(x_{t-1} \mid x_t) q(xt−1∣xt) 难以直接估计,但可以通过 q ( x t ∣ x 0 ) q(x_t \mid x_0) q(xt∣x0) 和 q ( x t ∣ x t − 1 ) q(x_t \mid x_{t-1}) q(xt∣xt−1) 计算 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1} \mid x_t, x_0) q(xt−1∣xt,x0)。此外,模型的目标是优化 p θ p_\theta pθ 使其逼近真实分布,并通过**变分下界(Variational Lower Bound)**来进行训练。
给定一个噪声图像
x
^
t
\hat{x}_t
x^t,假设它是正向扩散中的一个中间图像,我们有:
x
^
t
=
γ
t
x
^
0
+
1
−
γ
t
ε
ˉ
t
\hat{x}_t = \sqrt{\gamma_t} \, \hat{x}_0 + \sqrt{1 - \gamma_t} \, \bar{\varepsilon}_t
x^t=γtx^0+1−γtεˉt
模型
f
θ
f_\theta
fθ 的目标是估计正向扩散中添加的噪声
ε
ˉ
t
\bar{\varepsilon}_t
εˉt,以便恢复出
x
^
0
\hat{x}_0
x^0。
在我们的条件 DDPM 中,将**分割掩膜(segmentation mask)**作为条件
c
c
c,模型
f
θ
(
x
^
t
,
c
,
γ
t
)
f_\theta(\hat{x}_t, c, \gamma_t)
fθ(x^t,c,γt) 以噪声图像
x
^
t
\hat{x}_t
x^t 和条件
c
c
c 为输入,并使用超参数
γ
t
\gamma_t
γt。训练目标为:
E
(
x
,
y
)
E
ε
,
γ
∥
f
θ
(
γ
x
0
+
1
−
γ
ε
ˉ
,
c
,
γ
)
−
ε
∥
1
\mathbb{E}_{(x, y)} \, \mathbb{E}_{\varepsilon, \gamma} \, \| f_\theta(\sqrt{\gamma} \, x_0 + \sqrt{1 - \gamma} \, \bar{\varepsilon}, c, \gamma) - \varepsilon \|_1
E(x,y)Eε,γ∥fθ(γx0+1−γεˉ,c,γ)−ε∥1
在推理阶段,给定噪声输入
x
^
t
\hat{x}_t
x^t,可根据下式恢复图像
x
^
0
\hat{x}_0
x^0:
x
^
0
=
1
γ
t
(
x
^
t
−
1
−
γ
t
f
θ
(
x
^
t
,
c
,
γ
t
)
)
\hat{x}_0 = \frac{1}{\sqrt{\gamma_t}} \left( \hat{x}_t - \sqrt{1 - \gamma_t} \, f_\theta(\hat{x}_t, c, \gamma_t) \right)
x^0=γt1(x^t−1−γtfθ(x^t,c,γt))
根据贝叶斯规则,
q
(
x
t
−
1
∣
x
t
,
x
0
)
q(x_{t-1} \mid x_t, x_0)
q(xt−1∣xt,x0) 可由
q
(
x
t
∣
x
0
)
q(x_t \mid x_0)
q(xt∣x0) 和
q
(
x
t
∣
x
t
−
1
)
q(x_t \mid x_{t-1})
q(xt∣xt−1) 表示。我们可以将反向扩散的均值参数化为:
μ
θ
(
x
^
t
,
c
,
γ
t
)
=
1
α
t
(
x
^
t
−
1
−
α
t
1
−
γ
t
f
θ
(
x
^
t
,
c
,
γ
t
)
)
\mu_\theta(\hat{x}_t, c, \gamma_t) = \frac{1}{\sqrt{\alpha_t}} \left( \hat{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \gamma_t}} \, f_\theta(\hat{x}_t, c, \gamma_t) \right)
μθ(x^t,c,γt)=αt1(x^t−1−γt1−αtfθ(x^t,c,γt))
若令
Σ
θ
(
x
^
t
,
c
,
γ
t
)
=
1
−
α
t
\Sigma_\theta(\hat{x}_t, c, \gamma_t) = \sqrt{1 - \alpha_t}
Σθ(x^t,c,γt)=1−αt,则
x
^
t
−
1
\hat{x}_{t-1}
x^t−1 的更新过程为:
x
^
t
−
1
=
1
α
t
(
x
^
t
−
1
−
α
t
1
−
γ
t
f
θ
(
x
^
t
,
c
,
γ
t
)
)
+
1
−
α
t
ε
ˉ
t
\hat{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( \hat{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \gamma_t}} \, f_\theta(\hat{x}_t, c, \gamma_t) \right) + \sqrt{1 - \alpha_t} \, \bar{\varepsilon}_t
x^t−1=αt1(x^t−1−γt1−αtfθ(x^t,c,γt))+1−αtεˉt
其中
ε
ˉ
t
∼
N
(
0
,
I
)
\bar{\varepsilon}_t \sim \mathcal{N}(0, I)
εˉt∼N(0,I)。
公式解释:
这个公式:
x
^
t
−
1
=
1
α
t
(
x
^
t
−
1
−
α
t
1
−
γ
t
f
θ
(
x
^
t
,
c
,
γ
t
)
)
+
1
−
α
t
ε
ˉ
t
\hat{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( \hat{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \gamma_t}} \, f_\theta(\hat{x}_t, c, \gamma_t) \right) + \sqrt{1 - \alpha_t} \, \bar{\varepsilon}_t
x^t−1=αt1(x^t−1−γt1−αtfθ(x^t,c,γt))+1−αtεˉt
描述了条件扩散模型(Conditional Diffusion Model)中从时刻
t
t
t 更新到
t
−
1
t-1
t−1 的反向过程。在这个过程中,我们需要逐步去除噪声,从最终的高斯噪声状态逐渐恢复出干净的图像。
-
x ^ t \hat{x}_t x^t:这是第 t t t 步的噪声图像,是从扩散过程的前一步生成的图像。
-
α t \alpha_t αt 和 γ t \gamma_t γt:这两个参数控制噪声添加和去除的过程。
- α t \alpha_t αt 表示第 t t t 步的噪声比例,决定图像在这一步的清晰程度。
- γ t = ∏ i = 1 t α i \gamma_t = \prod_{i=1}^t \alpha_i γt=∏i=1tαi 是累计噪声因子,描述从初始图像 x 0 x_0 x0 开始到第 t t t 步的整体噪声水平。
-
f θ ( x ^ t , c , γ t ) f_\theta(\hat{x}_t, c, \gamma_t) fθ(x^t,c,γt):模型 f θ f_\theta fθ 估计图像中包含的噪声。这个函数的输入是当前的噪声图像 x ^ t \hat{x}_t x^t、条件信息 c c c(例如分割掩膜),以及噪声参数 γ t \gamma_t γt。它的输出是模型预测的噪声 ε ˉ t \bar{\varepsilon}_t εˉt。
-
去噪部分:
1 α t ( x ^ t − 1 − α t 1 − γ t f θ ( x ^ t , c , γ t ) ) \frac{1}{\sqrt{\alpha_t}} \left( \hat{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \gamma_t}} \, f_\theta(\hat{x}_t, c, \gamma_t) \right) αt1(x^t−1−γt1−αtfθ(x^t,c,γt))
这个部分表示从噪声图像 x ^ t \hat{x}_t x^t 中去除预测的噪声,以恢复出更接近干净图像的状态。通过将 x ^ t \hat{x}_t x^t 减去噪声项,并通过 α t \alpha_t αt 和 γ t \gamma_t γt 进行归一化,可以确保去噪的过程稳定。 -
添加随机噪声:
1 − α t ε ˉ t \sqrt{1 - \alpha_t} \, \bar{\varepsilon}_t 1−αtεˉt
这个项模拟反向扩散中的不确定性,即在去噪的过程中重新引入一定程度的随机性(噪声)。 ε ˉ t ∼ N ( 0 , I ) \bar{\varepsilon}_t \sim \mathcal{N}(0, I) εˉt∼N(0,I) 是从标准高斯分布中采样的噪声。
理解:
可以把这个过程想象成我们尝试擦掉一幅模糊的画,并不断校正它的细节。假设 x ^ t \hat{x}_t x^t 是带有噪声的图片,我们想从中还原出接近原始图像的版本。在每一步,我们根据模型预测的噪声估计值,将多余的噪声去掉(去噪部分),但为了模拟不确定性,还会在某种程度上重新添加一些随机噪声(最后一项),以避免生成的图像过于确定或缺乏多样性。这个过程反复进行,直到最终恢复出一张尽可能接近原始图像的清晰图片。
在条件扩散模型中,**条件信息 c c c(如分割掩膜或类别标签)**能进一步指导生成过程,使模型在去噪时更加准确地控制图像的内容和结构。
B. 多频动态扩散知识蒸馏
虽然扩散模型在生成任务中取得了良好的效果,但由于其参数量庞大,训练和推理耗时较长。因此,自动化地设计轻量化模型来减少参数量,同时保持原始模型的性能,成为一个亟待解决的问题。对于轻量模型而言,由于拟合能力较弱,减少参数会导致难以获得与标准高斯分布一致的功率谱密度。
大参数量的扩散模型学习到的噪声估计在各向同性上是均匀的(参见图8(a)),但在参数量减少的情况下,轻量模型在采样后期生成的噪声明显存在不平衡的频率分布(参见图8(b))。为了解决这个问题,我们提出了一种多频动态知识蒸馏方法,通过动态地对齐学生网络与教师网络在不同频带中的功率密度,提升学生模型的噪声预测能力。
首先,对于教师网络和学生网络预测的噪声 ε ^ t \hat{\varepsilon}_t ε^t 和 ε ^ s \hat{\varepsilon}_s ε^s,我们设计了一个多频特征提取模块,用于提取不同层次的频率特征。具体来说,对于预测噪声 ε ^ \hat{\varepsilon} ε^,我们定义高斯差分(DoG,Difference-of-Gaussian)为 D D D,如下:
D ( k 1 , k 2 ) = G k 1 × k 1 ( ε ) − G k 2 × k 2 ( ε ) (10) D(k_1, k_2) = G_{k_1 \times k_1}(\varepsilon) - G_{k_2 \times k_2}(\varepsilon) \tag{10} D(k1,k2)=Gk1×k1(ε)−Gk2×k2(ε)(10)
其中, G k × k ( ⋅ ) G_{k \times k}(\cdot) Gk×k(⋅) 表示尺寸为 k k k 的高斯滤波器。通过 D D D 可以获得不同频率成分,并生成高频、中频和低频特征,分别记为 f h , f m , f l f_h, f_m, f_l fh,fm,fl。这些频率成分可以看作是高通、中通和低通滤波信号,用于对齐学生网络和教师网络。
为了在两种网络之间实现动态频率对齐,我们设置了三个可训练权重 β l , β m , β h \beta_l, \beta_m, \beta_h βl,βm,βh,用于自适应地计算损失:
L mkt = β l L 1 ( f l s , f l t ) + β m L 1 ( f m s , f m t ) + β h L 1 ( f h s , f h t ) (11) L_{\text{mkt}} = \beta_l L_1(f_l^s, f_l^t) + \beta_m L_1(f_m^s, f_m^t) + \beta_h L_1(f_h^s, f_h^t) \tag{11} Lmkt=βlL1(fls,flt)+βmL1(fms,fmt)+βhL1(fhs,fht)(11)
其中, L 1 ( x , y ) L_1(x, y) L1(x,y) 表示特征 x x x 和 y y y 的 L1 损失。我们在图3展示了所设计的不同频率滤波器 f l , f m , f h f_l, f_m, f_h fl,fm,fh 的频率响应。它们分别从低频、中频和高频段中提取噪声,为轻量网络的动态学习提供了相关的频率成分。
可训练参数 β \beta β 赋予学生网络自适应调整缺失频带的能力,使其能够通过提取的不同频率信息来补充输出。通过使学生网络自适应地学习教师网络中的频率成分,这种多频动态扩散知识蒸馏方法让扩散模型获得更均匀的功率谱,从而提升噪声预测的准确性。
解释:
扩散模型就像在图像中添加和去除噪声,以便生成逼真的图片,但原始模型的参数量巨大,训练和推理时间都很长。因此,为了加快速度,我们需要设计轻量化模型,即减少参数的模型。但是这样做会导致预测的噪声在不同频率上的表现不平衡,尤其是在生成的最后阶段。这就像你想还原一张图片,但有些区域的细节太模糊,有些又过于锐利。
为了解决这个问题,本文提出了一种多频动态蒸馏方法:
- 教师网络(参数多、性能强)和学生网络(轻量化模型)都生成预测噪声。
- 利用高斯滤波(不同大小的高斯核)将噪声分为高频、中频和低频成分,这样我们就可以分别对齐这些频率段的数据。
- 通过动态权重 β l , β m , β h \beta_l, \beta_m, \beta_h βl,βm,βh,学生网络可以在训练过程中自适应调整不同频段的输出,使得它尽可能地接近教师网络的性能。
最终,这种方法可以让学生网络生成的噪声在所有频率段都更平衡,从而提高生成图片的质量。简单来说,这就像教学生网络“听音乐”时,不仅要学会低音,还要学会中音和高音,以实现全面的表现能力。
C.PTS(Progressive Training Strategy,用于加速扩散模型学习)
虽然扩散模型(如 DDPM)在图像生成任务上表现良好,但它需要在多个步骤中训练,因此非常耗时。正如图 4 所示,在传统的深度网络中,模型倾向于从低频信息开始学习,逐步掌握更高频率的成分【42】。受此启发,我们推测这个规律同样适用于扩散模型,即模型会先学习生成图像中的低频信息(如局部颜色),然后逐步学习高频信息(如纹理)。
如果这一规律成立,那么我们可以控制模型在不同频率上的学习效率:在低频区域(相对容易学习)加速,而在高频区域(学习难度较大)更加精细地学习。
为了验证这一假设,我们设计了一个 PTS 机制,让模型在训练中更关注难学的部分。具体来说,对于一个样本 S S S,我们首先将其缩小到较小尺寸 S 1 S_1 S1,减少细节,以便模型在早期学习阶段集中掌握低频信息(如色调、物体分布等)。在时间 T 1 T_1 T1 后,我们将样本 S S S 调整为比 S 1 S_1 S1 更大的尺寸,让模型学习更细粒度的频率特征。在最终的时间点 T N T_N TN,我们解除模型的学习限制,使其可以开始学习样本中的高频信息(如纹理)。
通过调整 T N T_N TN 的时间点,模型的学习效率在不同阶段得到了优化,使扩散模型更快收敛。PTS 的设计基于神经网络优先使用低频率来拟合目标函数的特点,并逐步学习样本的不同频率成分,最终达到高频信息的学习目标。
此外,PTS 使扩散模型能够覆盖更多尺度的训练样本,因此在处理具有多尺度特征的遥感数据时表现更佳。实验中第 IV-F 节验证了 PTS 在提升训练速度上的显著效果。
解释:
我们用更简单的语言来理解这个过程:
-
低频信息是什么?
低频信息就是图像中的大概轮廓和颜色。比如你看一张照片时,最先感知到的是背景色、主要物体的位置等。 -
高频信息是什么?
高频信息是图片里的小细节,比如物体的纹理、边缘的锐利程度。
PTS 是怎么工作的?
- 第一步:模型先看一个缩小的图片(比如尺寸小了,细节也少了),只需记住颜色和物体分布这种容易学的低频信息。
- 第二步:学到一定时间后,模型再看一张更大的图片,这样它就能学到更多的细节和中等频率信息。
- 第三步:最后一步时,图片不再有任何限制,模型可以专注学习最复杂的细节(即高频信息,比如表面的纹理)。
为什么这样更高效?
这种方法类似于先学会打基础,再慢慢学复杂的知识。这样,模型不会在一开始就处理复杂的细节,而是逐步提高学习难度。这不仅能加快模型的学习速度,还能让它更好地处理不同尺度的图片,比如遥感图像中的各种复杂结构。
图 3 展示了提议的多频率知识转移中各种滤波器的频率响应。手动提取的多频带特征使模型能够自适应地补充缺失的频带,从而获得更均匀的噪声估计。(a) 低频滤波器响应。(b) 中频滤波器响应。© 高频滤波器响应。
解释:
图 3 主要描述了三种不同类型的滤波器,它们各自关注图像的不同频率特征:
-
低频滤波器 (a):这个滤波器可以理解为在图像中捕捉大范围的色彩和形状,像是一个大网,只能看到大的轮廓,比如天空的蓝色或者草地的绿色。它帮助模型了解图像的整体结构。
-
中频滤波器 (b):这个滤波器介于低频和高频之间,主要用来捕捉一些细节,比如物体的边缘或中等复杂度的特征。想象一下,它就像一个细致的放大镜,帮助我们看到物体的轮廓。
-
高频滤波器 ©:这个滤波器专注于图像中的细微特征,比如纹理和小的变化。它帮助模型捕捉到让图像更真实的小细节,比如树叶的脉络或人的皮肤纹理。
这种多频率特征提取的技术让模型能够更好地处理噪声,填补缺失的信息,从而生成更加平滑和真实的图像。这就像是在制作一幅画时,画家先画出大概的轮廓,然后再逐步添加细节,最终完成一幅生动的作品。
图 4 中,红线是目标分布,而蓝线是模型预测。在频域空间中,深度网络表示的演变遵循一个明确的规律:频率从低到高依次收敛 (a)–©。
解释:
图 4 描述了深度学习模型在处理数据时的表现。图中有两条线:
- 红线代表我们想要模型达到的目标,这就是理想的结果或标准。
- 蓝线则是模型目前的预测结果,显示了模型在学习过程中是如何逐步接近目标的。
从图中可以看到,深度学习模型在学习的过程中,首先关注的是较低的频率信息。这就像是在画一幅画时,画家先勾勒出大致的轮廓和基本色调(低频),然后逐步添加更细致的细节和纹理(高频)。随着学习的进行,模型的频率响应逐渐从低频向高频转变,显示出它在不断改善预测结果,逐步接近目标分布。
这表明,在频率空间中,模型的学习过程有一个明确的阶段性变化,从简单到复杂,使得模型能够更好地理解和生成数据。这种从低到高的学习方式也有助于提高模型的效率和效果。
IV. EXPERIMENT AND ANALYSIS
在这一部分,我们首先描述数据集、配置和实施细节,然后进行定性和定量实验,以说明所提出方法的有效性。
A. 数据集和指标
与场景分割不同,假样本生成的任务需要从多尺度、零信息等情况判断恢复性能。为了为可控的遥感假样本生成提供一个通用的基准,我们基于 iSAID 数据集 [43] 选择了更具代表性和特定规模的样本进行训练和测试,并确保大目标(如运动场)的完整性和小目标的分辨率。我们选择了八种目标类型,如飞机、小型车辆和地面跑道等,使用 1411 张高分辨率遥感图像作为初始训练数据,以实现快速训练和评估。此外,还包含 453 张具有相同规格和相应掩模的遥感图像作为测试集,涉及八种目标类型,并且具有不同的掩模信息,提供超过 200 张图像以实现多标签多样化的目标场景。除了提供用于模型边缘计算能力的缺损目标掩模外,实验中还包含 46 张纯背景图像,以评估模型的场景恢复能力。在这个实验中,我们使用四个指标来评估模型性能。
- IS ↑ [44]:IS 指标通过计算生成图像的清晰度和多样性来评估图像质量,并使用生成图像在所有类别中的边缘分布熵来描述样本多样性。最后,通过计算它们的 KL 散度来计算图像质量,概率分布距离越大,图像质量越好。
- FID ↓ [45]:Frechet Inception Distance(FID)得分常用于生成模型的评价指标,以评估生成样本的质量。FID 是一种测量两组图像数据集相似性的方法,用于计算真实图像和生成图像特征向量之间的距离。
- MUSIQ ↑ [46]:一种基于图像块的多尺度图像质量转换方法,处理不同大小和长宽比的全尺寸输入图像。该方法通过同时提取多尺度特征,同时保持长宽比缩放来评估图像质量。
- NIMA ↑ [47]:NIMA 算法为任何图像生成一个评分直方图,并直接比较同一主题的图像。这四个指标从参考和无参考的角度评估性能,以实现更公平的评估。
解释:
在这一部分,研究人员介绍了他们进行实验的方法和评估模型性能的标准。
-
数据集:研究使用了 iSAID 数据集,这个数据集中有很多高分辨率的遥感图像。研究者们选择了多种类型的目标(例如飞机和小型车辆),并确保在图像中可以清楚地看到大的和小的目标,以便更好地测试模型的能力。
-
评估指标:为了评估模型的效果,研究者们使用了四种不同的指标:
- IS(图像质量评分):用来衡量生成图像的清晰度和多样性。
- FID(弗雷歇特距离):用来比较生成图像和真实图像之间的相似度。
- MUSIQ:一种处理不同尺寸图像质量的方式,能够同时考虑不同的图像特征。
- NIMA:这个算法可以为任何图像打分,从而比较不同图像的质量。
这些指标帮助研究人员更好地理解他们的模型在不同条件下生成图像的表现,确保结果是公平和可靠的。
图 5. 不同模型的定性比较。我们选择了四个图像示例,涵盖五种目标类型:飞机、船只、小型车辆、大型车辆和运动场。(a)-(d) 是四个示例。
图 5 展示了不同模型在生成图像方面的表现比较。研究者选取了四张不同的图片,这些图片中包含了五种不同的目标,比如飞机、船只、小型和大型车辆,以及运动场。通过这些例子,研究者可以直观地看到各个模型在处理不同目标类型时的效果差异。每个示例 (a)-(d) 代表了一种特定的模型输出,帮助评估哪些模型在图像生成上更有效。