A Multimodal Adversarial Attack Framework Based on Localand Random Search Algorithms

本文链接：https://blog.csdn.net/seaern/article/details/129986783

A B S T R A C T

尽管神经网络在计算机视觉和自然语言处理方面的许多问题已经取得了突破性进展，但对抗性攻击在许多基于神经网络的应用中是一个严重的潜在问题。攻击者可以用轻微扰动的例子误导分类器，这些例子被称为对抗性例子。由于现有的对抗性攻击是针对特定应用的，并且难以通用，我们提出了一种多模式对抗性攻击框架来攻击文本和图像分类器。所提出的框架首先生成候选集以找到替换词或像素，并生成候选对抗性示例。其次，该框架使用三种局部或随机搜索方法[波束搜索、遗传算法（GA）搜索、粒子群优化（PSO）搜索]更新候选集并搜索对抗性示例。实验表明，所提出的框架能够有效地生成图像和文本对抗性示例。将所提出的方法与MNIST数据集中的其他图像对抗性攻击进行比较，该框架中的PSO搜索具有98.4%的攻击成功率，优于其他方法。此外，波束搜索在MNIST和CIFAR-10数据集中都具有最佳的攻击效率和人类感知能力。与其他文本对抗性攻击相比，该框架中的波束搜索的攻击成功率为91.5%，优于其他现有和提出的搜索方法。在攻击效率方面，波束搜索也优于其他方法，这意味着我们可以使用波束搜索在较少扰动的情况下制作文本对抗性示例

INTRODUCTION

随着神经网络深度学习的发展，计算机视觉（CV）和自然语言处理（NLP）中的许多问题都取得了突破性进展。然而，对抗性攻击[1]可能会误导CV和NLP领域中基于神经网络的应用。例如，通过佩戴特定的眼镜，攻击者在攻击人脸识别系统时会逃避被识别或冒充他人[2]。文本对抗性攻击的一个例子是，对不当内容（如网络骚扰）的微小修改可以欺骗谷歌的有毒评论检测器[3]。对抗性攻击是CV领域的一个热门话题[4-8]。为了证明文本也容易受到对抗性攻击，一些研究人员提出了针对自然语言应用程序的文本对抗性攻击[8-11]。尽管有许多对抗性攻击被提出来揭示图像和文本神经网络分类器的脆弱性，但如何实现既能生成文本又能生成图像对抗性示例的对抗性攻击仍然是一个难题。

图像和文本对抗性攻击的最大区别在于，文本是离散数据，而图像可以作为连续数据处理。像素值可以被计算为连续数据，并且在生成对抗性图像时被剪裁为0和255之间的整数。尽管单词可以嵌入到一个连续的空间中，但它们仍然是空间中的离散点。图像对抗性攻击中使用的梯度方法在攻击文本分类器时不再有效。制作对抗性文本有几种方法。梯度下降和最近点搜索方法[12]、语言同义词替换[13，14]、替换词的全局和局部搜索[15，16]是生成对抗性文本的典型方法。然而，这些方法在一般使用中存在困难。例如，语言替代方法是特定于应用的。此外，针对文本分类器的攻击不能直接攻击图像分类器，反之亦然。

本文提出了一种多模式对抗性攻击框架来生成文本和图像对抗性示例。利用该框架，文本和图像被形式化为统一的数据类型，因此该框架中的攻击既可以应用于文本分类器，也可以应用于图像分类器。构建这样一个多模式对抗性攻击框架有两个主要挑战。

一个挑战是如何统一文本和图像数据，以便将攻击形式化为可解决的问题。在所提出的框架中，文本和图像数据都可以表示为张量，即多维数组。文本中的每个单词都表示为单词向量，因此文本是一个（文本长度，单词向量维度）形状张量。类似地，图像是（图像高度、图像宽度、颜色通道）形状张量。在统一图像和文本数据后，我们引入距离函数d来测量对抗性示例和原始示例之间的差异。然后，在我们的统一框架中，对抗性攻击被形式化为找到满足（1）可以误导分类器并且（2）d尽可能小的张量。

另一个挑战是搜索空间巨大，因此我们需要一些技术来提高搜索效率。我们将候选集生成（CSG）和局部/随机搜索方法相结合来解决巨大的搜索空间问题。CSG在每次搜索迭代中生成由有限数量的张量组成的候选集合。候选集合旨在包含一个对抗性示例来误导分类器。如果候选集不包含对抗性示例，那么它将使用几种搜索方法的变体进行更新。

所提出的多模式对抗性攻击框架的工作流程如下。首先，对文本和图像数据进行预处理，使其成为张量。然后，在CSG中，提出了显著性图来测量像素或单词对分类结果的影响。显著性映射用于确定每个像素或单词的修改优先级。根据修改优先级，几个像素或单词被修改并添加到候选集合中。如果候选集合包含对抗性示例，则解决了对抗性攻击问题。否则，将应用各种局部/随机搜索方法，如波束搜索、遗传算法（GA）和粒子群优化（PSO）来更新候选集，直到它包含对抗性示例。通过使用该框架，可以成功地制作多模式对抗性示例。总之，本文的贡献如下：

我们提出了一种多模式对抗性攻击框架，该框架可以生成图像和文本对抗性示例。它将图像和文本数据形式化为张量，然后在张量空间中搜索对抗性示例。

我们提出了显著性图来衡量每个像素或单词的修改优先级。使用显著性图，提出了CSG过程来生成最有可能是对抗性示例的图像或文本。

我们将CSG和3种局部/随机搜索方法相结合来解决巨大的搜索空间问题。这3种搜索方法是标准波束搜索、遗传算法和粒子群算法的变体。