-
摘要
多模态遥感影像分类的研究方向:改进融合策略或引入辅助架构
对比单模态分类模型,多模态遥感在对抗攻击领域缺乏
解决:调查不同融合策略下多模态遥感图对抗鲁棒性-->提出一种新的多模态对抗攻击方法:采用平衡扰动损失(平衡不同模态的扰动程度)和协同对抗损失(减小不同模态扰动对分类结果的冲突)----->(结论)多模态遥感图像分类模型的对抗鲁棒性受融合策略和攻击方法的影响,多模态多损失协同对抗攻击很棒
2. 引言
(遥感技术研究的基本任务之一)遥感图像分类是一个像素级分类任务,根据像素亮度和像素之间空间结构给每个像素分配类别标签(判别特征表示),可以提供地理信息。但 在图像中添加微小扰动可以使分类模型错误预测分类像素(容易受到对抗样本攻击)。一些对抗防御方法:输入过滤、对抗训练提高模型鲁棒性
多模态研究方向:不同的模态输入(高光谱HSI、多光谱MSI、多光合成孔径雷达SAR、激光雷达LIDAR)和跨模态融合策略。
HSI 和 MSI 提供高分辨率,LiDAR 和 SAR 图像包含高度信息
根据融合的层次,跨模态融合策略包括早期融合 ,中期融合和后期融合。早期融合是像素级融合,即在输入层直接融合不同模态数据;中期融合是特征级融合,即通过融合网络将多个模态提取的特征融合成统一的表示,然后进行分类预测;后期融合是决策级融合,将模态无关分类网络预测的分类结果进行融合,作为最终的分类结果。
大多数研究关注如何设计更好的融合策略来提高模型的精度忽略了多模态遥感影像分类模型的对抗鲁棒性。为了分析多模态遥感影像分类模型的鲁棒性,本文研究了三种融合策略的多模态分类模型,并使用不同的对抗方法和攻击策略(三个研究角度:融合策略;对抗方法;攻击策略)
攻击策略包括对单模态扰动的对抗攻击和对多模态扰动的对抗攻击
对多模态的对抗攻击方法:在生成多模态扰动时1)添加扰动后的图像应接近原始图像;2)多模态之间的扰动强度应相似,防止单模态起主导作用3)模态之间的扰动应在分类结果中产生相似的扰动分布,防止不同模态扰动攻击相互冲突而相互抵消
提出了一种对抗攻击方法:平衡不同模态的扰动程度(平衡扰动损失)和减小不同模态扰动对分类结果的冲突(协同对抗损失)实现更强的攻击性能,并在低扰动下获得更有效的攻击结果(对不同的多模态融合架构和两个流行数据集进行了实验)
3. 相关工作
遥感影像分类:
历史工作:在输入端将不同模态在像素级进行融合,并证明了早期融合可能会抑制模态内部和模态之间信息的交互,从而增加过拟合的风险(将 LiDAR 数据视为 HSI 数据的额外光谱波段,将拼接融合后的数据输入网络进行特征学习和分类;分析像素级图像融合方法(如多尺度分解和稀疏表示);涵盖用于融合 HSI 和 SAR 图像的不同像素级方法;十多种基于深度学习技术例如卷积神经网络 (CNN)、卷积稀疏表示和堆叠自动编码器的像素级图像融合方法);
中间融合方法在模型的中间层融合之前将不同模态数据转换为特征(使用两个双流CNN分别提取HSI和LiDAR数据的特征表示。然后,他们使用融合网络进一步融合提取的特征,以获得联合表示并进一步对其进行分类;使用相同的 CNN 双分支架构分析了 HSI 和高分辨率视觉图像融合的效果;提出了类似的双中心网络 SDCN,该网络首先训练 HSI 网络,然后在训练的网络中添加类似的网络分支,将 LiDAR 信息扩展到 HSI 模型;提出了跨权重多模态深度学习(MDL-CW),其目的是交互式地表示多模态特征以获得更有效的 信息融合)
后期融合是通过将不同的模态数据输入到不同的分类器中以获得分类结果,然后融合这些分类结果。(别使用光谱特征、空间特征、高程特征和图融合特征作为输入训练了四个SVM分类器,并通过加权多数投票融合四个分类图以获得最终的分类图;在HSI分类任务中使用决策级融合策略来融合线性特征和非线性特征的分类结果。)
对抗攻击的策略:
深度学习模型容易受到图像中特定微小扰动的影响是因为其非线性特性和过拟合,可以通过对抗攻击解决:
基于 使用盒约束 L-BFGS 来优化对抗性扰动以欺骗网络,提出了各种白盒(网络结构和参数已知)攻击方法:基于梯度的快速梯度符号法 (FGSM)、迭代 FGSM、投影梯度下降法 (PGD)、基于雅可比的显著性图攻击 (JSMA)、基于决策面的 DeepFool、通用对抗性扰动攻击 UAP、基于优化的卡尔尼和瓦格纳 (C&W) 攻击、多元输入迭代攻击、基于动量的迭代方法 (MIM) 、基于生成对抗网络 (GANs) 的攻击 AdvGAN
针对遥感领域的对抗攻击方法和防御方法:
对抗攻击方法:
通过引入由注意力特征损失、注意力置信度损失、背景分散损失和总变差损失约束生成的对抗性扰动来欺骗无人机遥感图像的目标跟踪模型。
提出了一种针对光学遥感图像目标检测的先进补丁攻击方法。通过一阶差分选择更具攻击性的补丁子块,并通过边界框漂移损失使目标检测框发生偏移,该方法提出了更具威胁性的补丁效应
一种具有局部扰动和自适应全局攻击的通用白盒攻击方法,该方法实现了对不同结构的对抗检测器生成通用扰动,从而欺骗模型。
提出了一种基于对抗生成网络的多特征协同对抗网络,用于生成多模态对抗样本,该方法在多模态模型上的表现优于经典的对抗攻击方法
对抗防御方法:
一个新的训练框架,通过添加由扰动搜索 GAN 生成的随机攻击类型来生成对抗样本,并用干净样本和各种类型的对抗样本训练分类器,以提高分类器的鲁棒性
通过扩展卷积学习和上下文感知学习模块来构建详细的全局上下文信息,从而防止对抗攻击,提高了模型的鲁棒性
以上均为单模态
我们研究了多模态遥感图像分类下的多模态攻击,该攻击为多个模态输入生成对抗样本,以共同扰乱多模态分类模型
多模态遥感影像分类的对抗鲁棒性
A. 攻击分析与实现
1)遥感影像分类
本文重点研究基于HSI和LiDAR模态的多模态融合
早期融合:
缺点:当输入被新的模态数据替换或输入特征的维数增加或减少时,早期融合网络需要完全重新设计和训练。
中期融合:
对于特定的网络架构,找到合适的融合方式可能很困难。与早期融合相比,中间融合方法可以生成更小的信息空间,计算量更小。、
决策融合:
在添加新的模态时,只需要训练特定领域的网络,而不会影响其他网络。
具有较低的复杂度
可以标准化融合方法的接口,并且不需要深入了解所涉及的深度学习特征提取方法
然而,它也丢弃了跨模态的丰富中间特征,这些特征在融合中通常非常有用。
2)将针对多模态遥感分类任务的对抗攻击分为单模态攻击和多模态攻击。由于本文讨论的模型具有两种模态输入,即HSI和LiDAR,因此针对该模型的单模态攻击是指仅通过扰动HSI或LiDAR数据来攻击模型,而多模态攻击是指同时扰动HSI和LiDAR模态输入来攻击模型
a) 单模态攻击
- FGSM:基于梯度的快速梯度下降方法。通过在模型梯度方向上对图像添加扰动,改变模型的损失函数值,使模型产生错误的错误分类输出。其生成对抗样本的公式如下
y 是真实标签。∇x L(x, y) 描述了损失函数 L(x, y) 在点 x 处的梯度,经过符号函数 sgn(·) 处理后成为梯度方向。优化的目标函数如下:
方程 ( 在原图像 x 的邻近球体 ε 中搜索未被分类为 y 的对抗样本 x′,对抗样本可以通过轻微扰动来欺骗深度学习模型。FGSM 中只需要计算一次梯度,并且它可以更快地堆叠数据。
- 投影梯度下降 (PGD)
PGD 实际上是 FGSM 的一种迭代方法。通过引入多次迭代,对抗样本的质量得到了显著提高
clip(·) 用于将约束 xi 限制在合法图像 x 的邻域 ε 内。
- 基于动量的迭代方法 (MIM)
加入动量项,以进一步稳定更新方向并减少局部极小值的出现
- C&W: C&W [35] 是一种基于优化的攻击方法,由 C&W 提出,基于不同的对抗性扰动度量范式和对抗性损失度量函数,其公式如下:
优化函数的第一项是扰动损失。第二项 f (·) 是对抗损失,c 是平衡扰动损失和对抗损失的超参数。
p
b)多模态攻击
将 FGSM、PGD、MIM 和 C&W 四种单模态对抗攻击方法改进为多模态方法
1) 多模态 FGSM 攻击:该方法同时扰乱 HSI 和 LiDAR 模态的输入,并且扰动分别由一步逆梯度扰动生成。
2) 多模态 PGD 攻击:该方法在 HSI 和 LiDAR 模态中执行迭代梯度攻击。
3) 多模态 MIM 攻击:该方法在梯度更新过程中引入动量项,并采用基于迭代梯度的攻击方法分别扰乱 HSI 和 LiDAR 模态。
4) 多模态 C&W 攻击:两种模态和多模态网络的对抗损失
B 实验
- 数据集:两个 HSI 和 LiDAR 融合数据集(Houston2013 数据集和特伦托数据集)
- 分类性能评价指标:总体精度 (OA)、平均精度 (AA) 和 κ 系数,它们从不同角度量化分类性能
Nc 表示正确分类样本的数量,Na 表示样本的总数。OA 定义了测试集中正确分类像素占像素总体积的比例
Nci 和 Nai 分别对应于每个类别的 Nc 和 Na。AA 指的是所有类别中的准确率平均值
公式描述的是随机一致性概率 Pe 的计算方法,该概率用于 Kappa 系数的计算中,以评估分类模型的性能。Pe 表示如果分类是完全随机的,预期的一致比例
Nri 和 Npi 分别代表每个类别中真实样本和预测样本的数量。κ 的取值范围为 -1 到 1,它衡量了模型预测与实际分类结果之间的一致性。
该类别的真实样本数 Nri 与预测样本数 Npi 的乘积,对所有类别进行累加,这个累加和代表了所有类别中被正确分类的样本数的总和,如果这些样本是随机分类正确的话。
具体来说,对于每个类别 i,Nri 是实际属于类别 i 的样本数量,而 Npi 是被模型预测为类别 i 的样本数量。乘积 Nri×Npi 表示在完全随机的情况下,类别 i 中预期被正确分类的样本数。将所有类别的这些乘积相加,我们可以得到在随机分类情况下,所有类别中预期被正确分类的样本数总和。
这个总和是计算随机一致性概率 Pe 的分子部分,它反映了如果分类完全是随机的,我们预期能够达到的分类准确度。这个值用于 Kappa 系数的计算中,以评估分类模型的准确度是否显著高于随机水平。换句话说,这个累加和帮助我们理解模型的分类准确度中有多少是来自于随机猜测,有多少是来自于模型的实际学习能力。
- 实验设置
单模态模型HSI网络和LiDAR网络的准确性和对抗鲁棒性,被用作两个基线。
(即实验的对照组。它们的作用是提供一个参考标准,用于评估多模态融合模型的性能。)
文章的核心目标是探索多模态融合(如HSI和LiDAR数据的融合)对模型性能的影响,具体包括:准确性(Accuracy):多模态融合是否能提高模型的分类准确率。
对抗鲁棒性(Adversarial Robustness):多模态融合是否能增强模型在面对对抗攻击时的稳定性。
(它是怎么被用作基线的)
单模态模型测试:分别测试HSI网络和LiDAR网络在干净数据(无对抗攻击)和对抗攻击下的性能:使用FGSM、PGD、MIM和C&W等经典的对抗攻击方法分别攻击HSI和LiDAR单模态模型,记录其准确性和鲁棒性变化。将这些单模态模型的性能作为基线,对比多模态融合模型在相同攻击方法下的表现。
多模态模型测试:测试不同融合策略(如早期融合、中期融合和晚期融合)的多模态模型在相同条件下的性能。
对比分析:通过对比单模态和多模态模型的性能,评估融合策略对模型性能的提升效果。
使用不同攻击方法在休斯顿数据集和特伦托数据集上 HSI 和 LiDAR 单模态模型的准确性。✔ 表示模态是干净的,✘ 表示模态受到攻击,✔ HSI 表示干净的 HSI 单模态模型,✘ HSI 表示受到攻击的 HSI 单模态模型。(单模态不受攻击和分别受到如下几种攻击的分类准确率)
-
Dataset:数据集名称,这里包括Houston和Trento两个数据集。
-
Attack:使用的对抗攻击方法,包括FGSM(快速梯度符号法)、PGD(投影梯度下降法)、MIM(动量迭代法)、C&W(Carlini & Wagner方法)。
-
HSI:表示在该数据集上,使用HSI(高光谱图像)单模态模型在干净数据(未受攻击)下的分类准确率。
-
LIDAR:表示在该数据集上,使用LiDAR(激光雷达)单模态模型在干净数据下的分类准确率。
-
XHSI:表示在该数据集上,HSI单模态模型在受到对抗攻击后的分类准确率。
-
XLIDAR:表示在该数据集上,LiDAR单模态模型在受到对抗攻击后的分类准确率。
数据解释:
-
表格中的数值代表分类准确率,范围从0到1,1表示完美分类,0表示完全错误分类。
-
例如,在Houston数据集上,使用FGSM攻击方法时,HSI模型的准确率从干净数据时的某个值下降到了0.2366,而LiDAR模型的准确率下降到了0.3163。
-
同样,在Trento数据集上,使用PGD攻击方法时,HSI模型的准确率从干净数据时的0.9705下降到了0.1615,而LiDAR模型的准确率从0.8771下降到了0.3668。
这些数据表明,对抗攻击对模型的分类性能有显著影响,通常会导致准确率显著下降。通过比较干净数据和受攻击数据下的准确率,可以评估模型对不同对抗攻击方法的鲁棒性
在PyTorch中定义模型结构、损失函数、优化器等,并进行训练和测试。将数据集分为两部分,一部分用于训练模型,另一部分用于在训练过程中评估模型性能。训练数据占总数据的80%,剩下的20%用作验证数据。从图像中提取7×7的小块作为输入数据,这种局部输入方式可以捕捉图像的局部特征,适用于像素级分类任务。模型预测每个像素的类别概率分布,使用这些预测和真实标签进行训练。这是典型的监督学习设置,模型通过学习预测和真实标签之间的差异来改进。在训练过程中,根据损失函数的梯度使用Adam算法调整模型参数。训练时的批次大小为64(每次训练使用64个样本),学习率为0.001,训练200个epoch(重复此过程200次)。为了公平地比较不同的攻击方法,我们统一将扰动大小 ε 限制为休斯顿数据集上的 0.003 和特伦托数据集上的 0.01。对抗攻击中添加的扰动大小被限制在特定范围内,在生成对抗样本时,控制扰动的大小不超过设定的阈值,控制扰动大小可以确保攻击的强度一致,从而公平评估不同攻击方法的效果。
对于多模态 PGD 和 MIM 攻击, µ 设置为最大扰动限制的 1/8(步长(µ)是最大扰动限制的1/8),迭代轮数设置为 10(迭代10次)。在每次迭代中,根据设定的步长和迭代次数生成对抗样本。 这些参数控制攻击的强度和精细度,影响攻击的效果。
在C&W攻击过程中,超参数 c 在 Houston 数据集上初始化为 0.01,在 Trento 数据集上初始化为 0.1,并在攻击方法优化过程中持续优化。根据设定的超参数c生成对抗样本,c用于平衡扰动大小和攻击成功率,初始值根据数据集不同而不同,并在优化过程中调整c的值,提高攻击的成功率和效率。
C&W攻击中的学习率为0.01,迭代50次(在每次迭代中,根据设定的学习率更新对抗样本,重复50次。),这些参数影响攻击的精细度和效果,适当的设置可以提高攻击的成功率。
在Houston数据集和Trento数据集下,使用不同攻击方法的早期融合多模态遥感分类模型的准确性。根据受攻击模态的数量,攻击被分类为单模态攻击和多模态攻击。HSI代表单模态HSI攻击,LiDAR代表单模态LiDAR攻击,而HSI-LiDAR代表多模态攻击。
在Houston数据集和Trento数据集下,使用不同攻击方法的中期融合多模态遥感分类模型的准确性。
在Houston数据集和Trento数据集下,使用不同攻击方法的晚期融合多模态遥感分类模型的准确性。
分别使用单模态和多模态攻击,研究了不同多模态融合架构的鲁棒性,即早期融合、中期融合和后期融合。在干净数据精度方面,每种融合策略的多模态模型都提高了单模态模型的精度。
根据不同的攻击分析结果;
在融合策略相同的模型中,针对HSI的对抗攻击比针对LiDAR的对抗攻击更有效地攻击模型精度。造成这种现象的原因是HSI模态具有更多波段,另一个原因是光谱数据更利于图像分类
-
HSI单模态模型:
-
在受到FGSM攻击时,HSI单模态模型的准确率从干净数据时的某个值下降到了0.2366。这表明HSI模型对FGSM攻击非常敏感。
-
-
LiDAR单模态模型:
-
干净的LiDAR单模态模型在没有受到攻击时的准确率为0.4972。这表明在没有攻击的情况下,LiDAR模型的性能优于受到攻击的HSI模型。
-
-
中融合多模态模型:
-
当HSI和LiDAR数据通过中期融合策略结合时,即使在HSI模态受到FGSM攻击的情况下,多模态模型的准确率仍然可以达到0.5683。这说明多模态融合可以提高模型的鲁棒性。
-
-
尽管多模态模型的准确率从0.2366提升到了0.5683,但这个提升并没有达到干净LiDAR模型的准确率0.4972。这表明虽然添加LiDAR模态确实增强了模型的鲁棒性,但增强的效果并不如预期的那么强。
-
一种可能的解释是,虽然LiDAR模态提供了额外的信息,但在对抗攻击下,这些信息可能没有被充分利用或有效整合,导致鲁棒性提升有限。
-
另一种可能是,HSI和LiDAR模态之间的互补性在对抗攻击下受到了影响,导致多模态融合的优势没有完全发挥出来
中间融合是最稳健的,其次是后期融合,早期融合的稳健性最差
当多模态遥感分类模型的两种模态都添加了对抗性扰动时,其通过联合多模态攻击的准确率低于任何模态的单模态攻击。
表明联合多模态攻击的强度强于单模态攻击
但联合多模态攻击的准确率与HSI单模态攻击非常接近,因此我们考虑如何协调两种模态的对抗性攻击,以使联合多模态攻击的效果更加明显
• C&W攻击方法:指的是由Carlini和Wagner提出的攻击方法,它是一种基于优化的攻击策略,旨在找到能够欺骗神经网络分类器的对抗样本。文章中提到,在所有测试的攻击方法中,C&W攻击方法导致的模型性能下降最多,表明它在这些方法中是“最强的”,即最有效或最具破坏性的。
• 单模态攻击和多模态攻击:单模态攻击指的是仅针对一种模态(如仅HSI或仅LiDAR)的攻击,而多模态攻击则同时针对多种模态(如同时针对HSI和LiDAR)。
• 模型准确率下降幅度最大:在采用C&W攻击方法时,无论是单模态攻击还是多模态攻击,模型的分类准确率都有显著的下降,说明C&W攻击对模型的破坏性很大。
• 扰动质量评估值:对抗样本通常会在输入数据中添加一定程度的扰动,这些扰动需要足够微妙,以至于人眼难以察觉,但足以让模型做出错误的分类。L_无穷和 L_2 是评估扰动大小的常用指标,其中 L_∞ 表示最大扰动,而 L_2 表示平方和的平方根(即欧几里得距离)。文章指出在C&W攻击下,这些扰动指标值最小,意味着C&W攻击能够在添加较小扰动的情况下成功欺骗模型。
• 结构相似性指数度量 (SSIM):SSIM是一种衡量两幅图像视觉相似度的指标,其值越接近1,表示图像越相似。文章指出,在C&W攻击下,扰动后的图像与原始图像的SSIM值最接近1,这表明C&W攻击添加的扰动在视觉上与原始图像非常相似,进一步证明了其扰动的微妙和隐蔽性。
综合攻击效果按强度从强到弱依次为 C&W、PGD、MIM 和 FGSM。攻击效果强意味着对分类准确率影响大
随着扰动大小的增加,攻击模型的分类精度会持续下降,并且随着模型精度的下降,增加扰动大小对攻击效果的影响会更小,因此下降曲线会更加平缓。
//待完善