One Pixel Attack for Fooling DNN 对抗样本单像素攻击

One Pixel Attack for Fooling DNN 对抗样本单像素攻击

2019 One Pixel Attack for Fooling DNN
相关代码

1.前言

最近的研究表明,通过在向输入向量上添加相对较小的扰动,可以很容易地改变深度神经网络(DNN)的输出。在本文中,我们分析了一个攻击在一个非常有限的场景下,只有一个像素可以被修改。论文中使用差分进化提出一种单像素的黑盒攻击方法,只利用的信息是概率标签。

与之前的工作相比有以下的优点:

1.有效性。

在Kaggle CIFAR-10数据集上,仅通过修改三个常见的深度神经网络结构上的一个像素
就可以发起非目标攻击,成功率为68.71%,71.66%和63.53%。我们还发现,每个自然图像
都可以被扰乱到1.8、2.1和1.5的其他类别。在攻击场景更为有限的原始CIFAR-10数据集上,
我们显示出22.60%,35.20%和31.40%的成功率。在ImageNet数据集上,通过更改一个像素
也可以对BVLC AlexNet模型进行非目标攻击,表明可以攻击16.04%的测试图像。

2.半黑盒攻击。

仅需要黑盒反馈(概率标签),而无需目标DNN的梯度、网络结构等内部信息。方法也比现有方法简单,因为它没有将搜索扰动的问题抽象为任何显式目标函数,而是直接关注于增加目标类的概率标签。

3.灵活性。

可以对梯度难以计算和不可微的网络进行攻击。

表明当前的dnn也容易受到这种低维攻击。此外,我们还说明了DE(或广义上说,进化计算)在对抗性机器学习领域的一个重要应用:创建能够有效地对神经网络产生低成本对抗性攻击的工具,以评估鲁棒性。

2. 提出的方法

以往的攻击论文,多是对整张图片的像素点进行一些变换,扰动的限制条件为总变换的大小。这篇文章对可改像素点的个数进行了限制,只改变一个像素点的值,但不限制其变换大小,以此达到变换后的图像被误分类的目的。

2.1 单像素攻击。其中:

f为接收n维输入的目标图像分类器, x 为正确分类为 t类的原始自然图像。 因此,x 属于 t 类的概率为 f t ( x ) f_{t}(x) ft(x) 。向量 e ( x ) = ( e 1 , … , e n ) e(x)=\left(e_{1}, \ldots, e_{n}\right) e(x)=(e1,,en)为额外添加的对抗扰动,目标类别为adv,最大改动范围为 L L L。注意, L L L 一般由它的长度来衡量。

所以目标对抗攻击的目的是找到一个优化解 e ( x ) ∗ e(x)^{*} e(x)
maximize ⁡ e ( x ) ∗ f a d v ( x + e ( x ) )  subject to  ∥ e ( x ) ∥ ≤ L \begin{array}{cc} \operatorname{maximize}_{e(x)^{*}} & f_{a d v}(x+e(x)) \\ \text { subject to } & \|e(x)\| \leq L \end{array} maximizee(x) subject to fadv(x+e(x))e(x)L
寻找最优解涉及找到两个值:(a)需要扰动哪个像素点;(b)每个像素点的修改范围。

在单像素攻击中, L=1。先前的工作通常会修改一部分维度,而在该方法中,只有 L这个维度会被修改,
其他维度则保留为零。可以将一个像素的修改视为沿平行于n个维度之一的轴的方向干扰数据点。

如图,很少像素的攻击会在输入空间的低维切片上产生干扰。实际上,一个像素的扰动允许以任意强度朝n个可能方向中的选定方向修改图像。 考虑 一张只有三个像素点的图片(即n = 3时(的情况如下图所示。
在这里插入图片描述
图中可视化了一个三维输入空间,x , y ,z 轴分别代表 Pixel 1, Pixel 2, Pixel 3像素值的取值范围,其中绿色的交点代表由三个确定的像素值所确定的一张图片。推广到 [公式] 维输入空间,即是由 [公式] 个点的像素值确定的一张图片。如果要进行单像素攻击,那么我们固定其中两维的值,在剩下的Pixel的取值范围进行搜索,以求找到能够改变分类结果的像素值,也就是搜索图中三条红线的任意一条。而对于二像素攻击,则是固定某一维的值,对剩下两维进行搜索,也就是搜索图中三个蓝色平面的任意一个。

2.2 差分进化

差分进化(Differential evolution,DE)是用于解决复杂的多模式优化问题的基于总体的优化算法。DE属于进化算法(evolutionary algorithms,EA)的一般类别。此外,它具有在种群选择阶段保持多样性的机制,因此在实践中,有望有效地找到比基于梯度的解决方案甚至其他类型的EA更优质的解决方案。具体而言,在每次迭代期间,根据当前解决方案(父代)生成另一组候选解决方案(子代)。然后将子代与相应的父代进行比较,如果他们比父代更适合(拥有更高的价值),则保留。以这种方式,仅比较父代和他的子代,就可以同时实现保持多样性和提高价值的目标。

这里是引用
主要是像人类这样,下一代至少优于或者持平于上一代

DE不使用梯度信息进行优化,因此不需要目标函数是可微的或先前已知的。 因此,与基于梯度的方法(例如,不可微,动态,噪声等)相比,它可以用于更广泛的优化问题。 使用DE生成对抗性图像具有以下主要优点:
1.更容易找到全局最优解。

DE不像梯度下降或者贪婪算法那样受局部影响较大,受局部极小值影响较小,更容易跳出局部最优。

2.需要得信息更少。

DE不需要梯度下降、拟牛顿法等优化方法需要的信息进行优化求解。这对于对抗图片的生成是至关重要的。(1)有些网络是不可微的(2)为了求解梯度信息需要获得目标系统更多的信息,有时是无法获得的。

3.简易。

这里提出的方法独立于使用的分类器。要使攻击发生,只要知道概率标签就足够了。

2.3 实际做法

作者将扰动编码为一个数组,作为DE算法的候选解,一个候选解包含固定数量的扰动,每个扰动是一个包含五个元素的元组:像素点的坐标(x,y)以及像素点的RGB值。对于单像素攻击,则仅搜索一个像素点。本文中,初始种群的数目为400,经过一次迭代,生成一个包含400个扰动的子种群:
x i ( g + 1 ) = x r 1 ( g ) + F ( x r 2 ( g ) + x r 3 ( g ) ) , r 1 ≠ r 2 ≠ r 3 , \begin{gathered} x_{i}(g+1)=x_{r 1}(g)+F\left(x_{r 2}(g)+x_{r 3}(g)\right), \\ r 1 \neq r 2 \neq r 3, \end{gathered} xi(g+1)=xr1(g)+F(xr2(g)+xr3(g)),r1=r2=r3,
上式中, x i x_{i} xi表示种群中的第 i i i 个扰动, g g g 代表迭代代数, r 1 , r 2 , r 3 r_{1}, r_{2}, r_{3} r1,r2,r3为三个随机数, F F F是一个尺度参数,用于平衡 x r 1 ( g ) x_{r_{1}}(g) xr1(g) x r 2 ( g ) , x r 3 ( g ) x_{r 2}(g), x_{r 3}(g) xr2(g),xr3(g)。也就是说,当要生成第 g + 1 g+1 g+1代解时,我们从第 g g g 解中随机选取三个解,按公式算出新的解 x i ( g + 1 ) x_{i}(g+1) xi(g+1) ,生成的子代解在与其对应的父代解进行比较,更满足适应度函数的解被保留下来。经过一系列的迭代更新,最终找到满足终止条件的解。

3.实验和效果

3.1 评价指标

1.Success Rate:
在非目标攻击的情况下,被定义为对抗图像被成功分为任意其他类别的比例。
在目标攻击的情况下,它被定义为将图像扰动为一个特定目标类的概率。

2.Adversarial Probability Labels(confidences):
累加每次成功扰动为目标类别概率值除以成功扰动的总数。
表示模型对对抗图像产生“误分类”的confidence。

3.Number of target classes:
计算成功扰动到一定数量类别的图片的数量。尤其,计算无法被其他类别扰动的图片数量,可以评估非目标攻击的有效性。

4.原始目标类别对的数量:计算原始目标类别对被攻击的次数。

3.2 实验结果

1.单像素攻击方法在AllConv(全卷机网络)、NiN(Network in Network)和 VGG16、BVLC AlexNet进行实验的成功率:
在这里插入图片描述
2.在CIFAR-10上攻击成功的对抗性图片。
在这里插入图片描述
3.ImageNet上攻击成功的对抗性图片,圆圈的位置是改变像素值的位置。
在这里插入图片描述

4.使用BVLC AlexNet,作者实践了改变3个像素、5个像素的情况:
在这里插入图片描述
5.只改变图像中0.098%的像素点,即可达到72.85%的攻击成功率:
在这里插入图片描述

4.总结与展望

关于为什么单像素就能成功?先前的结果表明,许多数据点可能位于决策边界附近。为了进行分析,将数据点在输入空间中移动了一小步,同时定量分析了类别标签的更改频率。在本文表明,还可以沿很少的维度移动数据点以查找类标签更改的点。结果还表明,由I. J. Goodfellow等人做出的假设,小尺寸的扰动会累积在多个维度的值上,并导致输出发生巨大变化,这可能并不需要解释为什么自然图像对小扰动敏感,因此只更改了一个像素即可成功干扰大量图像。

这个方法的局限性在于是个搜索,而且图像尺寸越大效果越差,但是如果迭代次数够,就能找到比较好的解。

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值