One Pixel Attack for Fooling Deep Neural Networks论文解读

最新推荐文章于 2022-05-05 21:33:33 发布

你回到了你的家

最新推荐文章于 2022-05-05 21:33:33 发布

阅读量383

点赞数

分类专栏：论文解读文章标签： r语言开发语言

本文链接：https://blog.csdn.net/kking_edc/article/details/120941250

版权

论文解读专栏收录该内容

38 篇文章 6 订阅

订阅专栏

论文地址

摘要

近期的研究揭示出深度神经网络（DNN）的输出可以很轻易地被通过在输入向量中添加relatively small perturbation来进行修改。在这篇论文中，作者分析了在一种极端情况下（只有单个像素可以被修改）的攻击。对于这种情况我们提出了一种基于differential evolution（DE）的novel method来生成单像素 adversarial perturbation。这种攻击方式需要更少的adversarial信息（一种黑盒攻击）并且由于DE的inherent feature，可以欺骗多种类型的网络。实验结果揭示了Kaggle CIFAR-10 test 数据集中67.97%的natural imge以及ImageNet（ILSVRC 2012）中16.04%的test image可以be perturbed to at least on target class by modifying just one pixel with 74.03% and 22.91% confidence on average。因此，我们所提出的攻击方式在一种非常极端的条件下explores a different take on adversarial 机器学习，展示了现有的DNN对于这样的low dimension攻击也十分脆弱。另外，我们同样阐述了一种DE（或者更广泛的来说，是evolutionary computation）在对抗机器学习方面的重要应用：创建一种可以有效生成针对神经网络的low-cost对抗攻击并且用于评估robustness的工具。

INTRODUCTION

在图像识别领域DNN已经取得了很大的成就。然而近期的工作揭示出自然图片上的人造perturbation可以很轻易地使得DNN误分类，这些经过修改的图片被称为对抗图片。创建对抗图片的一种通用思路是在原图片上加上tiny amount of well-tuned additive perturbation，这些扰动对人眼来讲几乎不可见。这种修改可以使得分类器将修改后的图片判定为一个完全不同的类。不幸的是，大多数先前的攻击并没有关注对抗攻击较为极端的情况，即修改像素的数量受到严格的限制。此外，研究在极端限定条件下生成的对抗图片有可能给我们new insight about the geometrical characteristic and overall behaviors of DNN‘s model in high dimensional space。例如，the characteristic of adversarial images close to the decision boundaries can help describing the boundaries‘s shape。

在这篇文章中，通过使用不同的evolution来扰动单像素，作者提出了一种只能获取probability labels的黑盒DNN攻击（图1和图2）。作者提出的方式和之前相比主要有以下优点：
待补充

METHODOLOGY

问题描述

生成对抗图片的过程可以被描述为一个受限制优化问题。我们假定一张输入图片可以用一个向量表示（其中向量中每个元素都可以被视为一个像素）。 $f$ 代表目标图片判别器，这个判别器接受 $n$ 维输入 $x=(x_1,\dots,x_n)$ ，分类为 $t$ 。将 $x$ 属于 $t$ 类的概率定义为 $f_t(x)$ ，我们用向量 $e(x)=(e_1,\dots,e_n)$ 来表示在图片 $x$ 、目标类 $a d v$ 以及最大修改量限制 $L$ 条件下的额外的对抗扰动。注意 $L$ 总是通过向量 $e (x)$ 的length进行衡量。adversaries在target攻击的目标是找到如下问题的最优解 $e(x)^*$ ：

$\max\limits_{e(x)^*}\quad f_{adv}(x+e(x))\\subject \ to\quad\Vert e(x)\Vert\le L$

上述问题需要找到两个值：

哪个dimensions需要被perturbed
对每个dimension要改动的对应length

在本文的工作中，上面的方程有些许的不同：

$\max\limits_{e(x)^*}\quad f_{adv}(x+e(x))\\subject \ to\quad\Vert e(x)\Vert_0\le d$

这里 $d$ 是一个较小的值，在单像素攻击的情况下 $d = 1$ 。先前的工作通常修改所有dimension中的一部分，但是在我们的工作中只有 $d$ 个dimension被修改，其他的dimension $e (x)$ 为0.

单像素修改可以可以被看做沿着 $n$ dimension中的某个和axis平行的方向perturbing数据点。Similarly，the 3（5）-modification moves the data points within 3（5）-dimension cubes。总的来说，few-pixel攻击在输入空间的low-dimensional slices进行perturbation。实际上，单像素perturbation允许the modification of an image towards a chosen direction out of $n$ possible directions with arbitary strength。图4描述了当 $n = 3$ 时的情况。

因此，通常的对抗图片通过扰动全部像素但是with an overall constraint on the strength of accumulated modification来构建。但是本文章中考虑的few-pixel攻击正好相反，仅关注少量的像素但是并不限制the strength of modification。

Differential Evolution

DE用于优化问题是一种新的思路，因为不需要梯度信息，可以跟进一下。

Differential Evolution（DE）是一种population based优化算法用于解决复杂的multi-modal优化问题[23],[6]。DE属于general class of evolutionary algorithms（EA）。Moreover，it has mechanisms in the population selection phase that keep the diversity such that in practice it is expected to efficiently find higher quality solutions than gradient-based solutions or even other kinds of EAs[4]。具体来讲，在每一轮迭代another set of candidate solutions（children）is generated according to the current population（parents）。接下来将children和对应的parents进行比较，如果children相比parent更fitted（possess higher fitness value）那么就会survive。通过这种方式，仅仅比较parent以及对应的children，保持diversity以及提高fitness value的目标可以同时实现。

DE在进行优化时并不使用梯度信息因此并不需要objective function to be differentiable or previously known。因此，相比基于梯度的方法，它可以被用于更大范围内的优化问题（例如non-differentable，dynamic，noisy等等）。使用DE来生成对抗图片有着如下的优势：

更高的找到全局最优的可能性：DE是一种meta-heuristic因此相比来讲less subject to local minima that gradient descent or greedy search algorithms（this is in part due to diversity keeping mechanisms and the use of a set of candidate solutions）。此外，这篇文章所考虑的问题有一个比较严格的限定（我们仅能修改单个像素）make it relatively harder。
需要更少的来自目标系统的信息：DE并不需要待优化问题是differentiable的，这和传统的梯度下降以及拟牛顿法不同。这个性质在生成对抗图片时是很重要的，因为首先有许多网络本身无法differentiable（例如26），其次计算梯度需要更多的来自于目标系统的信息，这在许多情况下是无法实现的
Simplicity：这里提出的这种方式is independent of the classifier used。For the attack to take place it is sufficient to know the probability labels。

现在已有许多DE的variations/improvements例如self-adaptive[3]、multi-objective[27]以及其他。这篇文章的工作可以通过尝试这些新的方法来进行提升。

方法及设定

作者将perturbation编码为一个array（candidate solution）并通过differential evolution来进行优化。每个candidate solution包含固定数量的perturbation并且每个perturbation都由一个五元组组成：xy坐标以及RGB值。每个perturbation都会修改某个特定的像素。candidate solution（population）的初始值是400并且在每一轮迭代另外的400个candidate solution（children）会通过使用如下的DE公式来生成：

$x_i(g+1)=x_{r1}(g)+F(x_{r2}(g)-x_{r3}(g)),\quad r_1\ne r_2\ne r_3$

公式中的 $x_i$ 是candidate solution中的一个元素， $r_1,r_2,r_3$ 是随机数， $F$ 是一个标量参数，这里设定为0.5， $g$ is the current index of generation。

代码

你回到了你的家

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
One Pixel Attack for Fooling Deep Neural Networks论文解读

论文地址摘要近期的研究揭示出深度神经网络（DNN）的输出可以很轻易地被通过在输入向量中添加relatively small perturbation来进行修改。在这篇论文中，作者分析了在一种极端情况下（只有单个像素可以被修改）的攻击。对于这种情况我们提出了一种基于differential evolution（DE）的novel method来生成单像素 adversarial perturbation。这种攻击方式需要更少的adversarial信息（一种黑盒攻击）并且由于DE的inherent fea
复制链接

扫一扫

专栏目录