The Limitations of Deep Learning in Adversarial Settings
核心: 利用显著图来对不同点进行攻击
与梯度热力图不同,显著图是基于(输入对输出的微分)前向导数的梯度建立而成,这样是因为前向导数可以找到导致网络输出显著性变化的输入。
整体算法分为三部分:
1.计算正向导数
2.构造基于正向导数的映射,即显著图
3.修改输入特征
如图, 图一是一个简单的分类网络, 蓝色的output是0 黄色的output是1 在x2 = 02~0.4之间内有条过度面
图二是对该网络的前向导数图, 可以看到在x2=0.2- 0.4之间会形成一个导数"山峰"
由此可以得出以下结论:
1. 较小的输入变化会导致神经网络的极端输出变化
2. 并非输入域中所有的区域都有利于寻找对抗样本
3. 前向导数减少了对抗样本的搜索空间
**
显著图
**
JSMA算法:
SMA算法的灵感来自于计算机视觉领域的显著图。简单来说,就是不同输入特征对分类器产生不同输出的影响程度不同。如