通过随机操作减缓对抗攻击的影响
文章题目:Mitigating Adversarial Effects Through Randomization
该文章来自于ICLR 2018-对抗样本的defence方法
作者:Cihang Xie, Zhishuai Zhang & Alan L. Yuille – 约翰*霍普金斯大学
随着深度神经网络的广泛使用,研究人员发现,神经网络虽然精确度高,但由于不可解释性以及存在对抗样本导致深度神经网络非常脆弱。
本文就是基于对抗样本对深度神经网络的威胁,提出了相应的防御方法,用于减轻对抗样本的影响。
虽然本文提出的方法比较简单,但实际应用中却非常有效,本文提出了利用随机化的方法进行defence,包括两个随机操作:随机resizing以及随机 padding,即随机变换尺寸大小,以及随机填充。
现有对抗样本生成方法
内容因部分原因先删除
随机扰动防御方法
-
【第一层】随机变换尺寸层(Random Resizing Layer)
一张用于预测的图片进行输入,假设原始图片为 W × H × 3 W × H × 3 W×H×3,经过Resizing层后,尺寸变为 W ′ × H ′ × 3 W' × H' × 3 W′×H′×3,同时, ∣ W ′ − W ∣ |W' - W| ∣W′−W∣ 和 ∣ H ′ − H ∣ |H' - H| ∣H′−H∣ 应该的在一个合理范围内。例如,对于 299 x 299 x 3 299 x 299 x 3 299x299x3 的图片,可以选择 [ 299 , 331 ) [299, 331) [299,331) 的合理范围。 -
【第二层】随机填充层(Random Padding Layer)
该层的处理方法:把上一层(随机变换尺寸层)的输出结果随机填充0像素。例如,填充 w w w 个零像素点在图像左半部分,填充 W ′ ′ − W ′ − w W'' - W' - w W′′−W′−w 个零像素点在右边,填充 h h h 个零像素点在图像上半部分,填充 H ′ ′ − H ′ − h H'' - H' - h H′′−H′−h 个零像素点在下面。这种填充方法一共可以有 ( W ′ ′ − W ′ + 1 ) × ( H ′ ′ − H ′ + 1 ) (W'' − W' + 1) × (H'' − H' + 1) (W′′−W′+1)×(H′′−H′+1) 种。
以上两层对图像的操作过程可以参见下面的示意图。
方法验证
以下的验证方法中,对于目标攻击模型(taraget model),是攻击者(attacker)对模型进行攻击,所以分类准确度越低越好。对于防御模型(defence model)是防御者面对攻击者的攻击的情况,尽可能让攻击者的攻击方法失效,即不管你用什么方法,在防御模型下分类准确度尽可能高。
下表是使用上述两种随机方法在普通攻击情况下的准确度。普通攻击,即攻击者不知道有随机层的存在,攻击者直接使用原有的网络作为对抗模型直接产生对抗样本。从下表中可以看出添加两个随机层后,防御模型都非常有效。使用两个随机层和集成对抗训练(这里为 ens-adv-Inception-ResNet-v2)相结合的情况下,分类准确度达到了最佳,最高可达到99.1% 的分类准确度。
上述结论在攻击者知道两个随机层存在的情况下,攻击依然有效,如下表所示。这是因为,虽然攻击知道随机层的存在,但是由于添加随机层是以时间为随机数种子,所以每一次产生的随机值都不一样,攻击者不能排除随机层的存在,不能进行有效攻击。
[外链图片转存失败(img-LKiW4LU5-1567327682500)(media/15664645067603.jpg)]
结论
利用上述两种随机方法进行对抗防御,这么做的好处有:
1. 不用增加对网络的额外训练,仅仅是对输入的图片进行微调
2. 仅仅增加两个随机层,所以计算量较少,几乎没有增加运行时间
3. 能适配不同的网络结构模型和对抗防御方法,可以作为对抗防御的一个基本的网络模块,能和其他方法进行结合
4. 使网络模型更具鲁棒性,特别在迭代攻击下更加凸显鲁棒性。
该方法在减缓对抗样本的影响的有效性已经在ImageNet这样的大的数据集得到了验证。
在NIPS 2017网络攻防赛中,该团队使用使用随机化方法和对抗训练模型,促使该团队取得了比赛中defence方向第二的成绩,达到了0.924分;而该团队在仅仅使用对抗训练的情况下获得了0.773分,排名第56名。