论文阅读笔记2——Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

本文研究了如何绕过防御机制,实现对抗样本在不同模型间的高效转移。针对白盒攻击和黑盒攻击,提出了翻译不变攻击(Translation-Invariant Attacks)方法,通过计算平移图像的平均梯度来降低对抗样本对特定模型识别区域的依赖,从而增强对抗样本的转移性。这种方法结合了FGSM和BIM等攻击策略,同时引入了动量项和随机输入变换以进一步提升转移性。论文探讨了CNN的平移不变性,并提供了三种核矩阵选择策略,简化了计算过程。
摘要由CSDN通过智能技术生成

论文标题:Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

论文链接:https://arxiv.org/abs/1904.02884

  • 关于对抗攻击:

白盒攻击(white-box attacks):在已经获取机器学习模型内部的所有信息和参数上进行攻击。已知给定模型的梯度信息生成对抗样本,如fast gradient sign method(FGSM),basic iterative method,Carlini & Wagner’s method。

黑盒攻击(black-box attacks):在神经网络结构为黑箱时,仅通过模型的输入和输出,生成对抗样本。

跨模型可转移性(cross-model transferability):对一个模型制作的对抗样本在很大概率下会欺骗其他模型。可转移性使得黑盒攻击(black-box attacks)能够应用于实际,并引发严重的安全问题(自动驾驶、医疗)。

生成的对抗样本与判别区域或白盒模型给定的输入点的梯度高度相关,而其他模型依赖于不同的区域做预测,这使得转移到其他防御模型很困难。

普通模型有相似的attention maps,防御模型会产生不同的attention maps。防御模型的辨别目标类别的识别区域(discriminative regions)与其他正常训练的模型不同,见图1。当用FGSM、BIM等已有模型生成对抗样本,只是对于单一的样本进行优化,因此会与识别区域或白盒模型在被输入数据的攻击点的梯度高度相关。对于另一个有着不同识别区域的黑盒模型,该对抗样本很难保持对抗性。

图1 采用类别激活图(class

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值