One Pixel Attack for Fooling DNN 对抗样本单像素攻击

最新推荐文章于 2023-01-08 00:12:52 发布

Camellia@

最新推荐文章于 2023-01-08 00:12:52 发布

阅读量4.5k

点赞数 2

分类专栏：深度学习文章标签： dnn 计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_51143009/article/details/122552167

版权

深度学习专栏收录该内容

33 篇文章 2 订阅

订阅专栏

One Pixel Attack for Fooling DNN 对抗样本单像素攻击

2019 One Pixel Attack for Fooling DNN
相关代码

1.前言

最近的研究表明，通过在向输入向量上添加相对较小的扰动，可以很容易地改变深度神经网络(DNN)的输出。在本文中，我们分析了一个攻击在一个非常有限的场景下，只有一个像素可以被修改。论文中使用差分进化提出一种单像素的黑盒攻击方法，只利用的信息是概率标签。

与之前的工作相比有以下的优点：

1.有效性。

在Kaggle CIFAR-10数据集上，仅通过修改三个常见的深度神经网络结构上的一个像素
就可以发起非目标攻击，成功率为68.71％，71.66％和63.53％。我们还发现，每个自然图像
都可以被扰乱到1.8、2.1和1.5的其他类别。在攻击场景更为有限的原始CIFAR-10数据集上，
我们显示出22.60％，35.20％和31.40％的成功率。在ImageNet数据集上，通过更改一个像素
也可以对BVLC AlexNet模型进行非目标攻击，表明可以攻击16.04％的测试图像。

2.半黑盒攻击。

仅需要黑盒反馈（概率标签），而无需目标DNN的梯度、网络结构等内部信息。方法也比现有方法简单，因为它没有将搜索扰动的问题抽象为任何显式目标函数，而是直接关注于增加目标类的概率标签。

3.灵活性。

可以对梯度难以计算和不可微的网络进行攻击。

表明当前的dnn也容易受到这种低维攻击。此外，我们还说明了DE（或广义上说，进化计算）在对抗性机器学习领域的一个重要应用：创建能够有效地对神经网络产生低成本对抗性攻击的工具，以评估鲁棒性。

2. 提出的方法

以往的攻击论文，多是对整张图片的像素点进行一些变换，扰动的限制条件为总变换的大小。这篇文章对可改像素点的个数进行了限制，只改变一个像素点的值，但不限制其变换大小，以此达到变换后的图像被误分类的目的。

2.1 单像素攻击。其中：

f为接收n维输入的目标图像分类器， x 为正确分类为 t类的原始自然图像。因此，x 属于 t 类的概率为 $f_{t}(x)$ 。向量 $e(x)=\left(e_{1}, \ldots, e_{n}\right)$ 为额外添加的对抗扰动，目标类别为adv，最大改动范围为 $L$ 。注意， $L$ 一般由它的长度来衡量。

所以目标对抗攻击的目的是找到一个优化解 $e(x)^{*}$ ：
$\begin{array}{cc} \operatorname{maximize}_{e(x)^{*}} & f_{a d v}(x+e(x)) \\ \text { subject to } & \|e(x)\| \leq L \end{array}$
寻找最优解涉及找到两个值：（a）需要扰动哪个像素点；（b）每个像素点的修改范围。

在单像素攻击中， L=1。先前的工作通常会修改一部分维度，而在该方法中，只有 L这个维度会被修改，
其他维度则保留为零。可以将一个像素的修改视为沿平行于n个维度之一的轴的方向干扰数据点。

如图，很少像素的攻击会在输入空间的低维切片上产生干扰。实际上，一个像素的扰动允许以任意强度朝n个可能方向中的选定方向修改图像。考虑一张只有三个像素点的图片（即n = 3时（的情况如下图所示。
在这里插入图片描述
图中可视化了一个三维输入空间，x , y ,z 轴分别代表 Pixel 1, Pixel 2, Pixel 3像素值的取值范围，其中绿色的交点代表由三个确定的像素值所确定的一张图片。推广到 [公式] 维输入空间，即是由 [公式] 个点的像素值确定的一张图片。如果要进行单像素攻击，那么我们固定其中两维的值，在剩下的Pixel的取值范围进行搜索，以求找到能够改变分类结果的像素值，也就是搜索图中三条红线的任意一条。而对于二像素攻击，则是固定某一维的值，对剩下两维进行搜索，也就是搜索图中三个蓝色平面的任意一个。

2.2 差分进化

差分进化（Differential evolution，DE）是用于解决复杂的多模式优化问题的基于总体的优化算法。DE属于进化算法（evolutionary algorithms，EA）的一般类别。此外，它具有在种群选择阶段保持多样性的机制，因此在实践中，有望有效地找到比基于梯度的解决方案甚至其他类型的EA更优质的解决方案。具体而言，在每次迭代期间，根据当前解决方案（父代）生成另一组候选解决方案（子代）。然后将子代与相应的父代进行比较，如果他们比父代更适合（拥有更高的价值），则保留。以这种方式，仅比较父代和他的子代，就可以同时实现保持多样性和提高价值的目标。

主要是像人类这样，下一代至少优于或者持平于上一代

DE不使用梯度信息进行优化，因此不需要目标函数是可微的或先前已知的。因此，与基于梯度的方法（例如，不可微，动态，噪声等）相比，它可以用于更广泛的优化问题。使用DE生成对抗性图像具有以下主要优点：
1.更容易找到全局最优解。

DE不像梯度下降或者贪婪算法那样受局部影响较大，受局部极小值影响较小，更容易跳出局部最优。

2.需要得信息更少。

DE不需要梯度下降、拟牛顿法等优化方法需要的信息进行优化求解。这对于对抗图片的生成是至关重要的。（1）有些网络是不可微的（2）为了求解梯度信息需要获得目标系统更多的信息，有时是无法获得的。

3.简易。

这里提出的方法独立于使用的分类器。要使攻击发生，只要知道概率标签就足够了。

2.3 实际做法

作者将扰动编码为一个数组，作为DE算法的候选解，一个候选解包含固定数量的扰动，每个扰动是一个包含五个元素的元组：像素点的坐标(x,y)以及像素点的RGB值。对于单像素攻击，则仅搜索一个像素点。本文中，初始种群的数目为400，经过一次迭代，生成一个包含400个扰动的子种群：
$\begin{gathered} x_{i}(g+1)=x_{r 1}(g)+F\left(x_{r 2}(g)+x_{r 3}(g)\right), \\ r 1 \neq r 2 \neq r 3, \end{gathered}$
上式中， $x_{i}$ 表示种群中的第 $i$ 个扰动， $g$ 代表迭代代数， $r_{1}, r_{2}, r_{3}$ 为三个随机数， $F$ 是一个尺度参数，用于平衡 $x_{r_{1}}(g)$ 与 $x_{r 2}(g), x_{r 3}(g)$ 。也就是说，当要生成第 $g + 1$ 代解时，我们从第 $g$ 解中随机选取三个解，按公式算出新的解 $x_{i}(g+1)$ ,生成的子代解在与其对应的父代解进行比较，更满足适应度函数的解被保留下来。经过一系列的迭代更新，最终找到满足终止条件的解。

3.实验和效果

3.1 评价指标

1.Success Rate:
在非目标攻击的情况下，被定义为对抗图像被成功分为任意其他类别的比例。
在目标攻击的情况下，它被定义为将图像扰动为一个特定目标类的概率。

2.Adversarial Probability Labels(confidences)：
累加每次成功扰动为目标类别概率值除以成功扰动的总数。
表示模型对对抗图像产生“误分类”的confidence。

3.Number of target classes：
计算成功扰动到一定数量类别的图片的数量。尤其，计算无法被其他类别扰动的图片数量，可以评估非目标攻击的有效性。

4.原始目标类别对的数量：计算原始目标类别对被攻击的次数。

3.2 实验结果

1.单像素攻击方法在AllConv(全卷机网络)、NiN(Network in Network)和 VGG16、BVLC AlexNet进行实验的成功率：
在这里插入图片描述
2.在CIFAR-10上攻击成功的对抗性图片。

3.ImageNet上攻击成功的对抗性图片，圆圈的位置是改变像素值的位置。

4.使用BVLC AlexNet，作者实践了改变3个像素、5个像素的情况：
在这里插入图片描述
5.只改变图像中0.098%的像素点，即可达到72.85%的攻击成功率：

4.总结与展望

关于为什么单像素就能成功？先前的结果表明，许多数据点可能位于决策边界附近。为了进行分析，将数据点在输入空间中移动了一小步，同时定量分析了类别标签的更改频率。在本文表明，还可以沿很少的维度移动数据点以查找类标签更改的点。结果还表明，由I. J. Goodfellow等人做出的假设，小尺寸的扰动会累积在多个维度的值上，并导致输出发生巨大变化，这可能并不需要解释为什么自然图像对小扰动敏感，因此只更改了一个像素即可成功干扰大量图像。

这个方法的局限性在于是个搜索，而且图像尺寸越大效果越差，但是如果迭代次数够，就能找到比较好的解。

Camellia@

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
One Pixel Attack for Fooling DNN 对抗样本单像素攻击

One Pixel Attack for Fooling DNN 对抗样本单像素攻击2019 One Pixel Attack for Fooling DNN1.前言通过在图像中添加一些人眼无法识别的扰动，可以使分类器分类对抗图片错误。在这篇文章中，作者认为分析DNN的分类边界的集合特征也能够帮助理解DNN的分类特性。以往的工作对这方面的研究相对较少，是因为理解高维空间的几何特征相对困难。然而，DNN相对于对抗性扰动的鲁棒性评估可能有助于解决这个复杂的问题。论文中使用差分进化提出一种单像素的黑盒攻
复制链接

扫一扫

专栏目录