Improving Robustness of Vision Transformers by Reducing Sensitivity to Patch Corruptions

本文 “Improving Robustness of Vision Transformers by Reducing Sensitivity to Patch Corruptions” 提出一种新训练方法降低对 patch 损坏的敏感性(RSPC) 以提升视觉 Transformer 的鲁棒性,通过构建 patch 损坏模型找出易受攻击的 patch,用随机噪声遮挡,再通过特征对齐稳定注意力层。实验表明,RSPC 在多个基准测试中显著提升模型鲁棒性,且在准确性和鲁棒性间取得更好平衡,训练成本更低。
摘要-Abstract
Despite their success, vision transformers still remain vulnerable to image corruptions, such as noise or blur. Indeed, we find that the vulnerability mainly stems from the unstable self-attention mechanism, which is inherently built upon patch-based inputs and often becomes overly sensitive to the corruptions across patches. For example, when we only occlude a small number of patches with random noise (e.g., 10%), these patch corruptions would lead to severe accuracy drops and greatly distract intermediate attention layers. To address this, we propose a new training method that improves the robustness of transformers from a new perspective – reducing sensitivity to patch corruptions (RSPC). Specifically, we first identify and occlude/corrupt the most vulnerable patches and then explicitly reduce sensitivity to them by aligning the intermediate features between clean and corrupted examples. We highlight that the construction of patch corruptions is learned adversarially to the following feature alignment process, which is particularly effective and essentially different from existing methods. In experiments, our RSPC greatly improves the stability of attention layers and consistently yields better robustness on various benchmarks, including CIFAR-10/100C, ImageNet-A, ImageNet-C, and ImageNet-P.
尽管视觉 Transformer 取得了成功,但它们仍然容易受到图像损坏的影响,例如噪声或模糊。事实上,我们发现这种脆弱性主要源于不稳定的自注意力机制,该机制本质上源于基于 patch 的输入构建,并且常常对跨 patch 的损坏过度敏感。例如,当我们仅用随机噪声遮挡少量 patch(如10%)时,这些 patch 损坏会导致准确率严重下降,并极大地干扰中间注意力层。为了解决这个问题,我们提出了一种新的训练方法,从一个新的角度提高Transformer的鲁棒性——降低对patch损坏的敏感性(RSPC)。具体来说,我们首先识别并遮挡/损坏最脆弱的patch,然后通过对齐干净样本和损坏样本之间的中间特征,明确地降低对它们的敏感性。我们强调,patch 损坏的构建是与后续的特征对齐过程对抗学习得到的,这特别有效,并且与现有方法有本质区别。在实验中,我们的RSPC极大地提高了注意力层的稳定性,并且在各种基准测试中始终表现出更好的鲁棒性,包括CIFAR-10/100C、ImageNet-A、ImageNet-C和ImageNet-P。
引言-Introduction
这部分内容主要介绍了研究背景、提出问题并给出解决方法和研究贡献,具体如下:
- 研究背景:视觉Transformer在近年取得成功,但对常见图像损坏(如噪声、模糊)和对抗扰动缺乏鲁棒性。像RVT和FAN这类先进的鲁棒架构,在遇到高斯噪声等损坏的样本时,准确率会下降超15%。
- 提出问题:通过实验发现,Transformer的自注意力机制依赖基于patch的输入,对patch上的损坏或扰动易过度敏感。如对RVT-Ti模型,用PGD-5生成对抗扰动仅扰动10%的patch,就能使真实类别的置信度从63.8%骤降至3.1%,导致误分类 ;直接添加随机噪声效果不佳,但用噪声遮挡patch可大幅降低置信度,且会显著影响各层注意力图,使注意力发生明显偏移,进而严重影响准确率。
- 解决方法:提出新训练方法RSPC(Reducing Sensitivity to Patch Corruptions),即找出特别脆弱的patch构建基于patch的损坏,通过对齐干净和损坏示例之间的中间特征,稳定中间注意力层,降低对patch损坏的敏感性。实验显示,RSPC可将RVT-Ti模型注意力的余弦相似度从0.43提升到0.91,面对不同遮挡掩码时准确率更高。
- 研究贡献:提出RSPC训练方法,通过构建有效patch损坏并对齐中间特征提升模型鲁棒性;开发patch损坏模型,以对抗方式训练找出易干扰中间注意力层的脆弱patch,与传统对抗训练不同,只学习应损坏的patch而非像素级扰动;实验证明RSPC对patch损坏的鲁棒性提升可推广到多种架构和基准测试,源于更稳定的注意力机制,且相比对抗训练,在准确率和鲁棒性间平衡更好,训练成本更低。

图1. 基于真实类别的置信度得分衡量的对patch扰动/损坏的敏感性。我们对RVT-Ti随机选择10%的patch进行扰动/损坏处理。在实际情况中,对抗性patch扰动(通常不可见)会显著降低置信度,这表明Transformer对patch具有高敏感性。然而,即使在ImageNetC中使用最高强度的随机噪声直接添加到patch上,也只会导致置信度有轻微下降。相比之下,用噪声遮挡patch会大幅降低置信度,并且可以作为对抗性patch扰动的良好替代方式,用于揭示patch敏感性问题。

图2. 基于注意力稳定性(左图)和准确率(右图)衡量的对基于patch损坏的敏感性。
左图:我们用噪声随机遮挡10%的patch,展示RVT-Ti和我们的RSPC-RVT-Ti不同层的注意力图。按照[13]中的方法,我们选择中心patch(红色方块)作为查询patch,并对所有注意力头的注意力分数求平均,以进行可视化展示。针对这个例子,我们还计算了不同层中干净图像和损坏图像注意力之间的平均余弦相似度(Cos-Sim)。显然,我们的RSPC模型生成的注意力图更加稳定。
右图:在ImageNet数据集上,我们绘制了不同遮挡掩码下被遮挡样本的准确率分布。这里,我们为每张图像随机采样100个不同的掩码。结果表明,RVT对基于patch的损坏非常敏感,其准确率的方差比我们的RSPC模型大得多。
相关工作-Related Work
这部分内容主要回顾了视觉Transformer(ViTs)鲁棒性相关的研究工作,并指出当前研究的不足,具体内容如下:
- 视觉Transformer的鲁棒性研究现状:ViTs在多种学习任务中性能卓越,不少研究聚焦其鲁棒性提升。虽然ViTs相比卷积网络在应对图像损坏和对抗攻击时表现更优,但即使是精心设计的RVT和FAN等鲁棒架构,在干净数据和受损坏数据上的准确率仍存在较大差距。目前,对于损坏/扰动对ViTs关键组件自注意力机制的影响,研究还不够深入。
- 特征对齐方法在提升鲁棒性中的应用与局限:通过减少干净和损坏样本之间中间特征的差距,如采用特征对齐方法,是提升模型鲁棒性的直观思路。然而,在实际应用中,由于测试数据的损坏类型难以预知,且无法获取对应的损坏训练样本,使得该方法的应用受到限制。针对此,本文聚焦ViTs,构建patch损坏模型生成有效损坏样本,进而研究ViTs对patch损坏的敏感性,并提出相应训练方法提升鲁棒性。
降低对Patch损坏的敏感性-Reducing Sensitivity to Patch Corruptions
该部分主要介绍了降低视觉Transformer对Patch损坏敏感性(RSPC)的具体方法,包括对Transformer对patch敏感性的探究、寻找易受攻击的patch以及通过特征对齐降低敏感性,具体内容如下:

图3. 所提出的降低对patch损坏敏感性(RSPC)训练过程概述。我们提出一种patch损坏模型来生成基于patch的损坏,并对齐干净样本和损坏样本之间每个自注意力模块的特征(对齐损失用绿色框突出显示)。与现有方法不同,我们以对抗的方式选择要遮挡/损坏的patch,即损坏那些最易受攻击的、会极大干扰中间注意力层的patch。
- Transformer对patch的敏感性:对比不同的patch扰动/损坏方式以研究Transformer对输入patch的敏感性。发现对抗patch扰动会使RVT模型置信度极低,表明模型对单个patch敏感,但生成对抗扰动计算成本高。直接在patch中添加随机噪声,对模型置信度影响小,因为损坏的patch仍包含可与相邻patch建立关联的信息。而基于遮挡的patch损坏方案(用随机噪声遮挡patch)能大幅降低模型置信度,有效揭示了patch敏感性问题,且比直接丢弃patch更具挑战性和实用性。
- 寻找易受攻击的patch进行损坏:由于随机遮挡/损坏patch对模型准确率影响差异大,为实现有效特征对齐,提出patch损坏模型。该模型根据给定示例和遮挡比例,预测二进制掩码以确定应损坏的patch。训练时通过最大化干净和损坏示例中间特征的距离,寻找那些一旦被遮挡就会严重干扰中间注意力层的易受攻击patch。patch损坏模型是一个包含卷积层、全连接层和二值化层的轻量级网络,利用直通估计器(STE)使二值化操作可微。
- 通过特征对齐降低敏感性:基于构建的patch损坏,通过对齐干净和损坏示例的中间特征来稳定自注意力层。同时训练patch损坏模型和分类模型,采用对抗目标,分类模型最小化交叉熵损失和对齐损失,patch损坏模型最大化对齐损失,即 m i n F m a x C E x ∼ D [ L c e ( x ) + λ L a l i g n ( x , x ^ ) ] min _{\mathcal{F}} max _{\mathcal{C}} \mathbb{E}_{x \sim \mathcal{D}}\left[\mathcal{L}_{ce }(x)+\lambda \mathcal{L}_{align }(x, \hat{x})\right] minFmaxCEx∼D[Lce(x)+λLalign(x,x^)],其中 λ \lambda λ 决定对齐损失的重要性。通过分别下降和上升梯度更新两个模型的参数,使patch损坏模型生成最具挑战性的损坏示例,分类模型对这些损坏更具鲁棒性。

实验-Experiments
这部分主要通过在不同数据集上进行实验,评估RSPC方法的有效性,具体内容如下:
-
CIFAR-10和CIFAR-100数据集实验
- 实验设置:在CIFAR-10/100数据集上从头开始训练模型,采用DeepAugment数据增强方法训练200个epoch,批大小为128,使用余弦退火调整学习率。以RVT-S和FAN-S-Hybrid为基线,将RSPC模型与之对比,默认设置 λ = 5 × 1 0 − 3 \lambda=5 ×10^{-3} λ=5×10−3 、 ρ = 10 % \rho=10 \% ρ=10%。
- 实验结果:与传统CNN和流行的Transformer模型相比,Transformer不一定具有更好的鲁棒性。RVT和FAN等精心设计的鲁棒架构在大多数情况下提升了鲁棒性,但RSPC模型在CIFAR-10-C和CIFAR-100-C基准测试中,相比RVT和FAN基线,进一步大幅提升了鲁棒性,提升幅度均大于1.4%,且RSPC-FAN-S-Hybrid模型在这两个基准测试中取得了新的最优结果。

表1. 在CIFAR-10和CIFAR-100数据集上与最先进方法的比较。我们在原始测试集上评估清洁准确率,在相应的损坏数据集(即CIFAR-10-C和CIFAR-100-C)上评估鲁棒准确率。结果表明,我们的RSPC方法在这两个数据集上都显著提高了模型的鲁棒性。†表示采用与我们的RSPC相同训练方法的模型。
-
ImageNet数据集实验
- 实验设置:在ImageNet数据集上,基于RVT和FAN模型应用RSPC方法,遵循其训练设置。使用ImageNet-A(IN-A)、ImageNet-C(IN-C)、ImageNet-P(IN-P)等鲁棒性基准测试评估模型鲁棒性,在IN-C评估中排除与噪声相关的损坏类型。报告IN-C(及无噪声的IN-C)上的平均损坏误差(mCE)和IN-P上的平均翻转率(mFR),数值越低表示模型鲁棒性越好。
- 实验结果:相比基线模型,RSPC模型在不同尺寸模型上均显著提升了在IN-A上的鲁棒性,提升幅度大于1.5%,同时保持了相当的干净数据准确率。在IN-C上,RSPC模型降低了损坏误差,幅度大于1.0%;在无噪声的IN-C上,误差降低幅度大于1.2%,表明该方法对多种损坏类型都有效。在IN-P上评估模型对扰动的稳定性时,RSPC模型也优于RVT和FAN基线。此外,RSPC在对抗patch扰动、patch损坏和对抗攻击方面也表现出色。

表2. ImageNet上的鲁棒性比较。我们报告了在ImageNet-C上的平均损坏误差(mCE)和在ImageNet-P上的平均翻转率(mFR)。mCE或mFR越低,模型的鲁棒性越强。在不同的模型规模下,与所考虑的基线模型相比,我们的RSPC模型持续提升了鲁棒性。
分析与讨论-Analysis and Discussions
该部分主要对RSPC方法进行了深入分析和讨论,通过多种方式验证其有效性,具体内容如下:
- 可视化结果和更多分析
- 中间注意力图的稳定性:以RVT-Ti为基线,可视化中间注意力图并计算余弦相似度来评估注意力稳定性。结果显示,RVT-Ti面对patch损坏时注意力图变化显著,而RSPC-RVT-Ti能有效保留高注意力区域。从整个ImageNet验证集来看,RSPC在平均和最坏情况下都提高了注意力相似度,表明RSPC能显著稳定中间注意力图。

**图4. RVT-Ti与我们的RSPC-RVT-Ti之间注意力稳定性的比较。我们采用与图2相同的方法获取注意力图以进行可视化。在最后一列中,我们还研究了不同遮挡掩码(1000个随机掩码)对每个示例的影响,并使用余弦相似度(Cos-Sim)对稳定性进行了定量评估。显然,无论是在定性还是定量方面,我们的RSPC模型生成的注意力图都要稳定得多。 **

图5. ImageNet数据集上中间注意力图的余弦相似度直方图。对于每一张图像,我们使用随机遮挡掩码构建损坏后的图像示例,并计算各层之间的平均余弦相似度。显然,我们的RSPC模型比RVT模型产生的注意力要稳定得多。 - Patch损坏模型生成的patch:可视化Patch损坏模型生成的patch,发现其倾向于遮挡物体关键部位的patch,如动物的眼睛等。这些patch会大幅降低模型置信度,但RSPC模型通过特征对齐,仍能保持较高置信度,从而具有更好的鲁棒性。

图6. 由所提出的patch损坏模型生成的基于patch的损坏样本的可视化结果。该损坏模型通常会识别出那些位于物体关键部位的patch,例如动物的面部或身体部位。
- 中间注意力图的稳定性:以RVT-Ti为基线,可视化中间注意力图并计算余弦相似度来评估注意力稳定性。结果显示,RVT-Ti面对patch损坏时注意力图变化显著,而RSPC-RVT-Ti能有效保留高注意力区域。从整个ImageNet验证集来看,RSPC在平均和最坏情况下都提高了注意力相似度,表明RSPC能显著稳定中间注意力图。
- 更多结果和消融实验
-
与对抗训练方法的比较:RSPC和对抗训练(AT)虽都采用对抗目标,但存在本质差异。目标上,AT学习像素扰动以提高对抗鲁棒性,却不太重视准确率(常大幅下降)和普通损坏鲁棒性(提升有限);RSPC则学习应损坏的patch,在准确率和鲁棒性间取得更好平衡。生成示例方式上,AT迭代优化像素,需对完整模型多次前向 - 反向传播;RSPC通过轻量级损坏模型单次前向传播生成示例,效率高约80倍。训练方式上,AT交替计算对抗示例和更新模型;RSPC则端到端训练,效率更高。实验表明,RSPC在准确率、鲁棒性和训练成本上表现更优。

图7. 在FAN-B-Hybrid模型上与对抗训练( ϵ = 1 / 255 \epsilon = 1/255 ϵ=1/255 的TRADES算法)的比较。对于平均损坏误差(mCE,最后一幅图),数值越低越好。显然,与TRADES相比,我们的RSPC模型在准确率和鲁棒性之间取得了更好的平衡,并且训练成本显著更低。 -
Patch选择策略:对比随机选择patch和对抗选择patch的策略,在ImageNet和ImageNet-C上的实验显示,采用对抗选择patch策略训练的模型在ImageNet-C上的表现显著优于随机策略,且保持与基线相当的准确率,证明对抗选择patch引入损坏的策略更有效。

-
RSPC对不同架构的影响:将RSPC应用于DeiT和Swin等更多架构。基于DeiT-Ti,在提高ImageNet-C鲁棒性的同时,降低了1.4%的mCE,干净数据上也有0.4%的提升;对于Swin-T,同样有效提高了鲁棒性,mCE从62.0%降至61.0%。这表明RSPC能在多种架构上有效提升模型的鲁棒性。
-
结论-Conclusion
这部分内容主要回顾研究工作、强调方法效果并展望未来,具体如下:
- 回顾研究工作:本文聚焦于Transformer模型的鲁棒性,深入研究其对输入patch的敏感性。研究发现,多数自注意力模块的特征及相应注意力在面对输入patch时较为脆弱,这是导致模型整体鲁棒性不足的关键因素。
- 强调方法效果:提出RSPC训练方法,通过构建patch损坏模型来确定易受攻击的patch,并利用特征对齐稳定中间注意力层,以此明确降低模型对patch损坏的敏感性。实际应用中,RSPC显著提升了自注意力的稳定性以及模型的整体鲁棒性,在多个基准测试中表现出色。
- 未来展望:尽管RSPC取得了较好效果,但鉴于Transformer在鲁棒性方面仍有提升空间,未来研究可在此基础上,进一步探索更有效的方法,以应对复杂多变的图像损坏情况,提升Transformer在各种场景下的性能表现 。
523

被折叠的 条评论
为什么被折叠?



