CVPR2020-通过选择性特征再生防御通用攻击
有一段时间自己看的论文都没有把相应的翻译或者笔记整理成文档的形式了,虽然在PDF上会有一些标注,但是觉得还是成稿的形式会方便很长一段时间之后回过头继续看及时回顾起来。
摘要
深度神经网络(DNN)的预测已经被证明容易受到精心设计的对抗性扰动的影响。特别地是,向任何图像中添加图像不可知的扰动(即通用对抗扰动)都可以欺骗目标网络,使其做出错误的预测。现有的防御策略主要在图像域进行,而我们提出了一种在DNN特征域进行防御的新型防御策略,有效地防御了这种通用扰动。我们的方法识别出最容易受到对抗噪声影响的预训练卷积特征,并部署了可训练的特征再生单元,将这些DNN滤波器激活转换成对通用扰动具有鲁棒性的弹性特征。在最多6个DNN层中只恢复最高50%的相对敏感性活动,并保持所有剩余的DNN活动不变,我们在恢复精度上比现有的跨不同网络架构的防护策略提高了10%以上。我们证明,在没有任何额外修改的情况下,我们在ImageNet上用一种类型的通用攻击样本进行的防御训练能有效防御其他类型的未知通用攻击。
介绍
尽管DNN在计算机视觉任务中不断取得成功并得到广泛应用[25,59,62,18,55,54,58,68],当一个小幅度的、精心设计的扰动(对抗噪声),人们几乎察觉不到它的存在,被添加到一个输入图像中时,这些网络还是做出了错误的预测[63,15,35,6,24,41,48,26,49]。此外,这种干扰已经成功地通过物理对抗样本[3,12,26]放置在现实世界的场景中,从而构成了安全风险。
大多数现有的对抗性攻击都使用目标网络模型梯度来构建一个依赖于图像的对抗样本[63,15,26,41,49,6],限制了在其他网络或图像上的迁移性[63,32,47]。其他产生依赖图像的对抗样本的方法包括只访问网络预测结果[20,46,61],使用替代网络[48]和梯度近似[2]。虽然之前在对抗防御方面已经做了大量的工作,例如对抗性训练[63,15,35,66],集成训练[64],随机图像转换和去噪[16,52,10,40,52,60,10,33,31],以及对抗性样本排斥[29,34,67,36,37],DNN仍然是脆弱的,在面向这种添加到输入不可忽视部分的对抗扰动时[2,65]。这些防御措施主要集中在使DNN对依赖图像的对抗性扰动具有鲁棒性,而图像相关的对抗性扰动在现实的视觉应用中不太可能遇到[1,45]。
我们提出的工作重点是防御通用对抗性攻击。与前面提到的依赖图像的对抗性攻击不同,通用对抗性攻击[38,44,43,51,23,45,53,42,30]构建了一个单一的图像不可知的扰动,当添加到任何未知的图像可以以高置信度愚弄模型输出错误的结果。这些通用的扰动也不是唯一的,许多对抗的方向可能存在于Dnn的特征空间(图1,第2行)[39,14,]。此外,对一个DNN产生的通用扰动可以迁移到其他DNN,使它们具有双重通用性[38]。这种与图像无关的干扰为许多视觉应用提供了一个强有力的现实威胁模型[45],因为扰动可以很容易地预先计算,然后实时地插入到任何场景中(以打印的对抗性补丁或贴纸的形式)[28,5]。例如,当执行语义分割时,这种图像不可知扰动可以在分割后的场景输出中完全隐藏目标类(即行人),并对自动驾驶汽车的刹车行为产生不利影响[19]。
这项工作提出了一种新颖的防御方法来对抗通用的对抗性威胁模型[38,43,44,51,23,45],有以下贡献:
1.我们证明了一组易受攻击的卷积滤波器的存在,它们对DNN在对抗环境下的错误预测负有很大的责任,“卷积滤波器权重的1-norm”可用于识别这类滤波器。
2.与现有的图像域防御不同的是,我们提出的DNN特征空间防御使用可训练的特征再生单元,将上述易受攻击的卷积滤波器再生为弹性特征(对抗性噪声掩蔽)。
3.提出了一种为训练产生强合成对抗扰动的快速方法。
4.我们在一系列DNN体系结构上广泛评估了提出的防御方案,并表明我们提出的防御方案优于所有其他现有的防御方案[1,52,66,31,35,45](图1)。
5.在没有任何额外的特定攻击训练的情况下,我们的防御系统针对一种通用攻击[38]有效地防御其他不同的未知通用攻击[44,43,51,45,23,42](图1),我们是第一个在不同的通用攻击中显示如此广的泛化性能的防御方法。
相关工作
对抗训练[63,15,35]在训练阶段通过增强DNN对依赖于图像的对抗性攻击的鲁棒性,并结合对抗样本,对每一小批使用梯度上升的DNN进行实时计算,使DNN的损失最大化。通过对从一组DNNs[64]中选择的不同目标dnn进行扰动计算,可以提高对抗训练对黑盒攻击的鲁棒性。Kan-nan等人[22]规模对ImageNet的对抗性训练[9],通过鼓励对抗性损失匹配logits对抗性和无干扰的图像(logit配对)
但是后一种方法对于更强的迭代attacks[11]是失败的。除了正面训练基线DNN外,先前的工作([66],[27])通过去噪中间DNN特征映射图,通过非局部平均去噪(特征[66])或去噪自动编码器(加强网[27]),进一步提高了DNN对图像相关攻击的鲁棒性。虽然Xie等人报告了对于强PGD攻击的有效鲁棒性,[35]evaluatedonImageNet[9],额外的非局部平均值仅比使用标准对抗训练的DNN增加了4%的改进。与特征去噪[66]相比,本文提出的特征再生方法有以下区别:(1)我们的特征再生单元不仅限于去噪,而且还包括可训练卷积层的叠加,这些叠加为我们的防御提供了灵活性,可以学习适当的特征恢复变换,有效地防御单一攻击,不同