【文本对抗攻击】Bridge the Gap Between CV and NLP!A Gradient-based Textual Adversarial Attack Framework

最新推荐文章于 2024-04-05 09:54:33 发布

薄荷奶绿Yena

最新推荐文章于 2024-04-05 09:54:33 发布

阅读量856

点赞数 13

分类专栏：对抗文章标签：自然语言处理人工智能深度学习

本文链接：https://blog.csdn.net/nbwjszd/article/details/136509105

版权

对抗专栏收录该内容

10 篇文章 1 订阅

订阅专栏

原文标题： Bridge the Gap Between CV and NLP!A Gradient-based Textual Adversarial Attack Framework
原文代码： https://github.com/Phantivia/T-PGD
发布年度： 2023
发布期刊： ACL

摘要

Despite recent success on various tasks, deep learning techniques still perform poorly on adversarial examples with small perturbations. While optimization-based methods for adversarial attacks are well-explored in the field of computer vision, it is impractical to directly apply them in natural language processing due to the discrete nature of the text. To address the problem, we propose a unified framework to extend the existing optimization-based adversarial attack methods in the vision domain to craft textual adversarial samples. In this framework, continuously optimized perturbations are added to the embedding layer and amplified in the forward propagation process. Then the final perturbed latent representations are decoded with a masked language model head to obtain potential adversarial samples. In this paper, we instantiate our framework with an attack algorithm named Textual Projected Gradient Descent (T-PGD). We find our algorithm effective even using proxy gradient information. Therefore, we perform the more challenging transfer black-box attack and conduct comprehensive experiments to evaluate our attack algorithm with several models on three benchmark datasets. Experimental results demonstrate that our method achieves overall better performance and produces more fluent and grammatical adversarial samples compared to strong baseline methods.

背景

然而，由于文本空间的离散和不可微的性质，文本对抗攻击更具挑战性。在自然语言处理（NLP）中，直接利用梯度来优化对抗样本的方法无论在白盒还是黑盒设置中都不适用，因为它们无法获得有效的离散文本。因此，NLP 领域的大多数工作都探索一些启发式方法来产生离散扰动，例如使用语料库知识或上下文信息来操纵文本中最重要的单词等，2020）。此外，有一些文本对抗攻击的做法，利用梯度进行一阶近似来寻找词汇中的最佳候选词进行替换，但一次性搜索效果较差，并且可能违反局部线性化假设。

创新点

为了弥补这一差距，我们提出了一个通用框架，使现有的基于优化的对抗攻击方法适应 NLP（见图 1）。

具体来说，我们利用梯度对标记嵌入而不是原始文本产生扰动，从而将离散文本空间中搜索对抗性样本的问题转化为在连续且可微的嵌入空间中搜索。这为应用计算机视觉中研究的对抗性攻击方法来制作文本对抗性样本提供了基础。在本文中，我们在我们的框架内采用基于梯度的算法 PGD来执行文本对抗攻击，表示为 T-PGD。考虑到在实际场景中攻击者可能不掌握受害者模型的梯度信息，我们探索进行基于决策的转移攻击的可能性。为此，除了真正的受害者模型之外，我们在攻击过程中还有另一种模型，称为本地代理模型。梯度信息来自本地代理模型，只能访问受害者模型的决策。

模型

我们在扰动生成过程中有两个模型：（1）本地代理模型，提供梯度信息来优化对抗样本；（2）攻击者试图欺骗的真实受害者模型。

具体来说，在攻击者的本地数据集上微调的代理 BERT 模型将每个离散文本实例编码为连续的标记嵌入，然后向其添加连续的扰动。根据受害者模型的预测输出，使用代理模型的梯度迭代优化扰动。扰动后，MLM 头将解码扰动的潜在表示以生成候选对抗样本。
在这里插入图片描述

Notation符号

我们将每个样本表示为 (x ∈ X , y ∈ Y)，其中 x 表示输入文本，y 表示其相应的标签。特别是，x 的嵌入是 e，隐藏状态是 h，最终预测是 ^ y。局部神经网络由映射函数 f 隐含，该函数由三个分量 f0、f1 和 f2 组成，其中包含：

潜在空间扰动

使用本地bert模型作为编码器，获取提供语义和句法特征。

对于每个文本输入，我们首先计算前向传播过程中的任务特定损失，然后执行后向传播以获得损失相对于输入文本的标记嵌入的梯度。生成的梯度被视为更新添加到令牌嵌入的扰动的信息，可以通过解决如下优化问题来获得：

重建

使用连续扰动，我们需要从优化的token嵌入中重建有意义的对抗性文本，本文利用了MLM-head 高精度的重建能力。具体来说，MLM-head是一个预训练的H×V线性层，其中H是隐藏状态的大小，V是词汇表的大小。给定连续输入隐藏状态 h，它可以通过 t = hAT + b 预测令牌 ID，其中 A 和 b 是调整参数。随后，标记器可以使用预定义的 ID-令牌映射将 ID 解码为文本。受此启发，我们采用 MLM head 作为解码器，原因有两个：1）MLM-head 能够解释隐藏空间中的任何表示嵌入，这对于连续搜索对抗性示例至关重要； 2）MLM-head在预训练阶段经过充分训练，因此它与语言模型一起获取语言知识，并且可以考虑上下文信息重建句子。

不失一般性，我们以图 3 中的一个例子来说明一次性攻击模型和我们提出的基于迭代攻击的模型之间的差异。一次性攻击模型倾向于选择代币 b 作为代币 a 的替代品，因为 cos(−→ at1, -a →b) < cos(−→ at1, -a →c)。然而，在我们的框架中，单步扰动−→at1不会跨越解码边界，因此如果仅使用单步扰动，解码结果保持不变。基于迭代搜索，扰动可以累积到跨越决策边界并到达转变点t3的程度，该转变点将被解码为最优解c。然后将a替换为c以获得对抗样本来查询受害者模型的决策。如果这个对抗性样本未能欺骗受害者模型，我们将从当前扰动的令牌嵌入（即图 3 中的 t3）开始下一次搜索迭代，而不是从解码令牌 c 的嵌入开始。通过利用虚拟嵌入作为过渡点，这种迭代攻击框架可以保留累积的梯度信息并避免破坏局部线性化假设。

T-PGD

对于每个样本，我们首先预先定义搜索过程的最大迭代次数以避免无限循环问题。在每次迭代中，我们首先将输入 x 映射到标记嵌入，并通过从均匀分布中采样噪声来初始化扰动。在第 i 步中，我们通过将上一步中生成的扰动 δi−1 添加到 ei−1 中来获得新的嵌入 Ei。然后，ei将被前向传播以获得隐藏表示：hi = f1(ei)。接下来，对带有扰动的隐藏状态进行解码，以重建精心设计的对抗样本，Advi = Dec(hi)，其中 Advi 表示在此步骤中获得的对抗样本。然后，我们使用通用句子编码器 (USE) 分数计算 Advi 和输入 x 之间的语义相似度 Simi。

仅当 Advi 满足以下条件时，我们才查询受害者模型：（1）它与之前查询过的所有潜在对抗样本不同；（2）与之前的潜在对抗样本相比，它与原始句子更相似。如果攻击成功并且 Sim 高于超参数阈值，则 Advi 被视为原始输入的最终对抗样本。否则，hi 将被转发以获得局部模型关于输入 x 的预测。然后我们计算预测标签和黄金标签 y 之间的损失，然后计算梯度 δi，并更新下一步的扰动。
在这里插入图片描述

启发式策略

随机掩蔽多样性：

为了增强对抗样本的多样性，在每个输入句子中随机屏蔽一个标记，以随机初始化搜索以获得更广泛的搜索范围。具体来说，对token列表 $x_{token} = [x_0, ..., x_i, ..., x_n]$ ，使用均匀分布随机选择第 i 个索引标记，替换为特殊标记 [MASK]。接下来，基于 MLM 头的解码器将根据上下文预测屏蔽词，这将使生成的对抗性样本多样化并考虑到语义一致。

输入重建损失：

生成的对抗样本的质量在很大程度上受到基于 MLM 头的解码器的重建精度的影响。因此，基于MLM头的解码器应该受到外部约束以确保重建精度，从而保证生成的对抗样本的质量。因此，为了在优化中保持 MLM-head 的重建性能，将 MLM 损失作为正则化项添加到损失函数中。损失函数： $L(f (x), y) = L_1(f (x), y) + βL_2(f (x), y)$ , 其中 L1 (f (x), y) 是局部模型在特定任务上的原始损失，L2(f(x),y)是输入重建任务的CE损失，β是权重常数。到我们考虑的目标是减少重建损失L2，同时沿梯度方向增加L(f(x),y)，β应该为负值。

层索引 m 的选择:

图层索引 m 是特定于数据集的，但与受害者无关。这是因为在解码不同层时，ASR 和 USE 之间存在权衡（层索引 ↑、USE ↑、ASR ↓ ）。因此，我们通过调整采样数据集的 USE 分数来确定 m。在实践中，我们采样了100个例子，采用BERT作为受害者进行试点实验。我们计算解码不同层的 USE 分数。然后，我们设置 USE 阈值 t = 0.8 并忽略导致 USE 分数低于 t 的层。最后，我们找到其余层中USE最低的层，并将m设置为相应层的索引。我们分别为 SST-2、MNLI 和 AG 设置 h = 10,11 和 7。

反义词过滤:

语义相反的单词在其表示嵌入中位置紧密，因为反义词通常出现在相似的上下文中。因此，我们使用 WordNet 过滤原始单词的反义词，以防止无效的对抗样本。

实验

评估方式：ASR表示攻击成功率，USE表示原始文本和对抗样本的相似度，ΔI和ΔPPL表示原始文本转化为对抗样本后语法错误和困惑度的增加。
基础：
T-PGD 始终优于基于分数的强大攻击方法；T-PGD 生成的对抗样本的质量随着文本长度的增加而提高。我们的对抗性样本总体上比基线模型产生更高的 USE 分数，这表明我们的方法可以通过明确的梯度信息更精确地操纵对抗性样本。尽管 T-PGD 的语法性能在 SST-2 上不是最好的，SST-2 主要包含较短的文本（见表 1），但 MNLI 和 AG 的 News T-PGD 产生的语法错误最少，困惑度也最低
消融：
梯度信息：梯度信息替换为随机扰动，攻击率明显下降

重建任务的重要性。我们展示了添加重建损失（方程（5）中的 L2）对于生成更准确的重建的重要性。我们对 SST-2 进行了消融研究。结果如表 5 所示。在所有三个受害者模型上，攻击性能 (ASR) 均显着提高（高达 100），而对抗样本的质量却下降，USE 分数下降，语法错误和困惑度增加。这验证了我们的观点，即在没有重建损失的情况下，对抗性样本试图改变模型的预测，忽略语义是否得到保留以及语言质量是否得到保证。我们进一步调整β来研究ASR和USE分数的趋势。 BERT 的结果如图 4 所示。我们观察到，随着 β 绝对值的增加，早期 ASR 下降，而 USE 增加，这表明首先为了样本质量而牺牲了有效性；后期ASR持续下降，USE也持续下降，说明重建损失也不宜过大。