神经网络的博弈交互解释性(四):博弈交互与对抗攻击的关系
目录(本团队近期五六篇论文的研究,作为博弈交互解释性的体系框架(不怎么稳固),六七个学生和我一起写的,大家都忙,先列个提纲,抽空慢慢填内容):
- 前言,漂在零丁洋里的体系
- 博弈交互概念、定义、定理、推论、与计算
- 动机:建模知识,连接性能
- 背景基础Shapley value
- 双变元博弈交互
- 多变元博弈交互,及其近似计算
- 多阶博弈交互
- 相关定理与推论
- 自然语言交互树
- 博弈交互与知识表达的关系
- 为何要对视觉语义进行建模
- 局部纹理特征、全局纹理特征、组成部分半信息特征,组成部分全信息特征的建模
- 语义特征的泛化性
- 博弈交互与对抗攻击的关系,推导证明与实验 (本文仅介绍第四章)
- 证明博弈交互与对抗迁移性的负相关关系
- 推导证明多个前人迁移性增强算法可近似归纳解释为对博弈交互的抑制
- 交互损失函数与迁移性的增强
- 博弈交互与泛化能力的关系,推导证明与实验
- 探索交互强度与泛化能力的关系
- 证明Dropout对交互强度的抑制
- 交互强度损失函数与泛化能力的提升
- 博弈交互与XXXXXXXXXXXXXXXXX
- 博弈交互与XXXXXXXXXXXXXXXXX
本文仅介绍第四章——博弈交互与对抗攻击的关系,证明与实验
大家好,我们是王鑫和任洁,是张拳石老师@Qs.Zhang张拳石 的博二、博一的学生。“博弈交互与对抗攻击的关系”的研究是在张老师的指导下,我们共同牵头领导完成的。
对应论文 Xin Wang, Jie Ren(共一), Shuyun Lin, Xiangming Zhu, Yisen Wang, Quanshi Zhang, “A Unified Approach to Interpreting and Boosting Adversarial Transferability” in arXiv:2010.04055, 2020
本研究包括以下三个方面。
- 我们提出并验证了对抗扰动单元间博弈交互与对抗迁移性的负相关关系。
- 我们推导证明了前人的多种迁移性增强算法可以近似归纳解释为对这种博弈交互的抑制。
- 我们提出一个损失函数在攻击过程中直接抑制博弈交互,从而增强对抗迁移性。实验证明,该损失函数在各种设定下均能够显著提高对抗扰动的可迁移性。在大多数情况下,相对于对比组,加上抑制博弈交互损失函数后所产生的对抗样本的可迁移性提升一般都在10%以上。进一步地,我们将能降低博弈交互的攻击方法进行组合。在我们的实验中,该方法将所产生的对抗样本的可迁移性由48.9%~98.5%提升至了69.8%~99.1%。
一、博弈交互与对抗迁移性的负相关关系
近年来,深度神经网络的对抗训练越来越受到关注,很多研究使用在源DNN上生成的扰动攻击其他目标DNN,探讨了对抗扰动的可迁移性,并提出了许多方法增强对抗扰动的可迁移性。但是在前人研究中,这些方法提高迁移性的内在机理仍不清楚。
本研究从对抗扰动内部的博弈交互这一新的角度,解释对抗扰动的可迁移性,基本思路如下:首先,我们定义了对抗扰动内部的博弈交互值。其次,我们推导证明了多步对抗攻击得到的对抗扰动往往比单步攻击得到的对抗扰动显示出更强的博弈交互作用。根据文献[1],比起单步攻击的对抗扰动,多步攻击产生的对抗扰动往往更容易过拟合源DNN的参数,且可迁移性较低。我们认为复杂的博弈交互反映了对抗扰动对源DNN的过拟合,从而损伤了其在目标网络中的可迁移性。因此,我们提出假设:对抗扰动的迁移性与其内部的博弈交互是负相关的。我们进一步通过理论(近似)证明和比较实验验证了这一假设。
交互值的定义:我们定义了对抗扰动内部的博弈交互,即基于Shapley Value量化对抗扰动不同单元间的博弈交互值。给定一个输入x,用δ表示对抗攻击在样本x上生成的扰动。δ往往通过优化下面的损失函数得到。
![b5d4d61fc0a26bb5279123d9356eff7a.png](https://i-blog.csdnimg.cn/blog_migrate/a10d2a0399a606d40e2a7d3e979de74a.png)
其中
对于扰动向量δ,我们用Ω={1,2, …, n}表示其中的元素全集,δi表示第个像素上的扰动值,称为扰动单元。对抗扰动δ的对抗效用被定义为:
![83e020e9fc89d11643fbce08f504ee95.png](https://i-blog.csdnimg.cn/blog_migrate/77dd293178034e75e8eb3664182e4669.png)
我们基于博弈论中的沙普利值(Shapley value)定义两两对抗扰动单元之间的博弈交互作用(对博弈交互的详细的定义与讨论,请见第二章)。对于每个对抗扰动单元
![0639f4c6947e55c26dadeea25669bde6.png](https://i-blog.csdnimg.cn/blog_migrate/c309faee720d8b53d144a961d7c0e10f.png)
其中第一项
提出假设:基于上述定义,我们提出并(近似)证明了以下proposition。
![5e32bd5092e3a6195e9d99038ade90e9.png](https://i-blog.csdnimg.cn/blog_migrate/1b0e5655ffec04fe5a64e7a35aedad06.jpeg)
Proposition 1 表明,一般情况下,与单步攻击相比,多步攻击产生的对抗扰动倾向于表现出更强的博弈交互。直观来看,较强的博弈交互意味着扰动单元之间的紧密联系,这表明扰动向量对源DNN存在明显的过拟合。文献[1]指出多步攻击往往使产生的对抗扰动更容易过拟合,从而导致可迁移性较低。因此,我们提出假设:对抗扰动的可迁移性与其内部的博弈交互呈负相关。
验证一:我们通过实验比较了可迁移性较弱的对抗扰动和可迁移性较强的对抗扰动的博弈交互, 验证了这一负相关关系。基于ImageNet数据集,我们在ResNet-34/152(RN-34/152)和DenseNet-121/201(DN-121/201)上分别产生对抗扰动,并将ResNets上产生的扰动迁移到DenseNets中,将DenseNets上产生的扰动迁移到ResNets中。图1显示了对抗迁移性与博弈交互之间的负相关关系,其中横轴表示对抗扰动内部的博弈交互强度,纵轴表示该对抗扰动在目标DNN上的的对抗效用。
![dbbe164e3529afdb8cc1ec92bf5146a6.png](https://i-blog.csdnimg.cn/blog_migrate/d2c341980aaa68eb0a2f31eb04a9a6f7.jpeg)
二、推导证明多个前人迁移性增强算法可近似归纳解释为对博弈交互的抑制
验证二:对抗扰动的可迁移性与博弈交互之间的负相关性,可以视为一种统一的角度去解释目前的迁移性增强算法的内在机理。即,我们分析并(近似)证明了以下三种迁移性增强算法实质上降低了对抗扰动内的博弈交互。与此同时,这些研究也间接验证了对抗扰动的可迁移性与博弈交互之间的负相关性。
(1)Variance-Reduced Attack (VR Attack) [2]
![9628689670b31c4cb39b7e5be54193b1.png](https://i-blog.csdnimg.cn/blog_migrate/5f4bbed42f441087f38a43078bb4b6c6.jpeg)
详细内容和证明可见论文以及附加材料。
(2)Momentum Iterative Attack (MI Attack) [3]
![519abe9b561408386776c7c8323de3ea.png](https://i-blog.csdnimg.cn/blog_migrate/06d8509d85e1e27b123f2e60be943880.png)
![079fd1d65e92408e7a6b12fe12541a79.png](https://i-blog.csdnimg.cn/blog_migrate/77c9c1d06ee84d08d16cddd75386e498.jpeg)
详细内容和证明可见论文以及附加材料。
Proposition 2 和 Proposition 3 证明了一般情况下,VR Attack 和MI Attack 相较于普通的多步攻击,都能够降低对抗扰动的博弈交互。
(3)Skip Gradient Method (SGM Attack) [4]
SGM Attack利用ResNets中skip-connections的梯度信息来提高对抗扰动的可迁移性。SGM Attack修改了反向传播中的梯度,可以将其视为在反向传播中添加了Dropout操作。 我们证明了Dropout操作可以降低博弈交互的显著度(详情见本文的第五章),从而降低DNN的过拟合。 因此,这也证明SGM Attack降低了对抗扰动内的博弈交互。
除了以上理论证明,我们还设计了实验验证,比较了以上攻击方法产生的扰动与baseline攻击[5]产生的扰动,结果证明以上攻击方法显著降低了对抗扰动的博弈交互。
三、交互损失函数与迁移性的增强
验证三:基于以上发现,我们提出了博弈交互损失函数,通过在攻击过程中降低扰动单元间的博弈交互,提高对抗扰动的可迁移性。基于以下公式,我们同时优化分类损失函数和博弈交互损失函数来生成对抗扰动,该方法被称为Interaction-Reduced Attack (IR Attack)。
![dcf9f9b648968059769d0a8dced04d50.png](https://i-blog.csdnimg.cn/blog_migrate/3914092a0679ab5023202231ebce4b9f.png)
实验结果表明,博弈交互损失函数可以显著提高对抗扰动的可迁移性,达到目前最优的迁移性能。在大多数情况下,相对于对比组,加上抑制博弈交互损失函数后所产生的对抗样本的可迁移性提升都在10%以上。进一步的,我们将能降低博弈交互的攻击方法进行组合。在我们的实验中,该方法将所产生的对抗样本的可迁移性由48.9%~98.5%提升至了69.8%~99.1%。
同时,交互损失函数对迁移性的提升也间接验证了对抗扰动的可迁移性与博弈交互之间的负相关性。
【实验结果】
基于ImageNet数据集,在AlexNet,VGG-16等六种源DNN上,我们使用IR Attack生成对抗扰动并将其迁移到VGG-16,ResNet-152等7种目标DNN上。此外,我们还将IR Attack应用到ensemble-based attack中,如表1所示。与baseline attack [5]相比,IR Attack在各种源DNN和目标DNN上都显著提升了对抗扰动的可迁移性。
![cc42fd0f4b0bca2132018f9d6db80c4a.png](https://i-blog.csdnimg.cn/blog_migrate/d160c29322717bbea5e75fd6774727f9.jpeg)
以上实验中的目标DNN都是未经过对抗训练的unsecured DNNs,我们还在经过对抗训练的secured DNNs上对IR Attack产生的对抗扰动的可迁移性进行了测试,其中Translation invariant attack (TI Attack) [6]是议中专门针对目标神经网络为对抗训练后的secured DNNs的攻击方法,我们在TI Attack的基础上加入博弈交互损失函数得到TI+IR Attack,结果如表2所示。博弈交互损失函数也提升了针对secured DNNs的可迁移性。
![5428a30b471592d01ffb3704fa7567a8.png](https://i-blog.csdnimg.cn/blog_migrate/c8ed7ab5fc0da59c4c2a540dfa466172.jpeg)
我们进一步将博弈交互损失函数和其他降低交互作用的攻击方法进行结合。如上文提到的,MI Attack,VR Attack,SGM Attack这三种方法都在降低扰动单元之间的博弈交互。并且,SGM Attack是目前迁移性能最好的攻击方法,我们将博弈交互损失函数作为一种降低博弈交互的工具,添加到SGM Attack中,以进一步提高对抗迁移性。
值得注意的是,interaction loss只是降低博弈交互的一种直接手段,我们可以将以上可以降低扰动间博弈交互的攻击方法结合到一起去共同降低扰动间的博弈交互,以进一步提高对抗迁移性。因此,我们提出了HybridIR Attack(MI+VR+SGM+IR Attack)。
![f7095557c1a5e73bc6ee9625fe013a2d.png](https://i-blog.csdnimg.cn/blog_migrate/22ce27c9e8f3a7efacc605f8f98fd6b0.jpeg)
此外,我们还测试了IR Attack中博弈交互损失函数的权重对可迁移性的影响,图3(a) 显示了对抗扰动的可迁移性随博弈交互损失函数的权重λ增加而增加。说明在一定范围内, 对抗扰动的可迁移性时随内部博弈交互的降低而增大的,这反映了对抗扰动的可迁移性与其内部的博弈交互的负相关性。
![e6ccc8dce4340e3a5534d3c06c506168.png](https://i-blog.csdnimg.cn/blog_migrate/9dbc930eab3e8de172d938a4d1ee7d70.jpeg)
我们还发现一个现象,即使在不使用分类损失函数,即仅使用博弈交互损失函数,所产生的扰动也具有一定的迁移性。为了进一步研究博弈交互损失函数的影响,我们仅通过博弈交互损失函数来生成对抗扰动,而不使用分类损失函数。图3(b) 表明这样生成的对抗扰动仍然具有一定的可迁移性。这可能是由于这些对抗扰动会减少DNN中正常的博弈交互,从而破坏了用于推理的正常pattern。
【作者】
![2450a51fd56b151f9f0e6e4f5d39ad7c.png](https://i-blog.csdnimg.cn/blog_migrate/a8b14e65edbd8506cd220b964d6c4a09.jpeg)
王鑫:上海交通大学博士二年级,师从张拳石副教授。https://xinwang98.github.io/
任洁:上海交通大学博士一年级,师从张拳石副教授。https://jie-ren.github.io/
林澍昀:上海交通大学大四本科生,现在张拳石实验室进行实习研究。
朱祥明:上海交通大学大三本科生,现在张拳石实验室进行实习研究。
王奕森:北京大学研究员/助理教授。http://www.cis.pku.edu.cn/info/1084/1637.htm
张拳石:上海交通大学副教授,博士生导师。http://qszhang.com
[1] Cihang Xie, Zhishuai Zhang, Yuyin Zhou, Song Bai, Jianyu Wang, Zhou Ren, and Alan L Yuille. Improving transferability of adversarial examples with input diversity. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2730–2739, 2019.
[2] Lei Wu, Zhanxing Zhu, and Cheng Tai. Understanding and enhancing the transferability of adversarial examples. arXiv preprint arXiv:1802.09707, 2018.
[3] Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Xiaolin Hu, Jianguo Li , and Jun Zhu. Boosting adversarial attacks with momentum. In CVPR, 2018.
[4] Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey, and Xingjun Ma. Skip connections matter: On the transferability of adversarial examples generated with resnets. In International Conference on Learning Representations, 2020.
[5] Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. Towards deep learning models resistant to adversarial attacks. In ICLR, 2018.
[6] Yinpeng Dong, Tianyu Pang, Hang Su, and Jun Zhu. Evading defenses to transferable adversarial examples by translation-invariant attacks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4312–4321, 2019.