FGPM：文本对抗样本生成新方法

最新推荐文章于 2025-03-14 00:51:56 发布

PaperWeekly

最新推荐文章于 2025-03-14 00:51:56 发布

阅读量3.5k

点赞数 5

文章标签：算法 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/108806253

版权

本文介绍了Fast Gradient Projection Method (FGPM)，一种针对文本的对抗样本生成方法，旨在提升对抗训练的效率和质量。FGPM通过同义词替换，解决了文本数据离散性和语义连续性的挑战，比现有方法更快且效果更好。实验结果显示，FGPM在多个数据集和模型上表现出较高的攻击有效性和可转移性，同时适用于对抗训练以增强模型的鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者｜孙裕道

学校｜北京邮电大学博士生

研究方向｜GAN图像生成、情绪对抗样本生成

论文标题：

Fast Gradient Projection Method for Text Adversary Generation and Adversarial Training

论文链接：

https://arxiv.org/abs/2008.03709

引言

本文是关于文本类对抗样本的生成的文章。要清楚的是由于图片和文本数据内在的不同，用于图像的对抗攻击方法无法直接应用于文本数据上。

首先图像数据是连续的（准确地说是近似连续，因为图像像素值是 0 到 255 的整数值，但是如果输出的像素值是浮点数可以进行取整操作），但文本数据是离散的（比如有一个 one-hot 编码为 000001 表示的“道”字，那么编码 000010 表示的字与道字不存在连续性）。

这也就是为什么当前文本生成图像整体的生成质量普遍不高的原因，因为不能很好地将图像的连续空间与文本的离散空间统一起来。

其次，仅仅对像素值进行微小的改变就可以造成图像数据的扰动，而且这种扰动是很难被人眼察觉的。但是对于文本的对抗攻击中，小的扰动很容易被察觉，但人类同样能猜出本来表达的意义。

因此 NLP 模型需要对可辨识的特征鲁棒，而不像视觉只需要对不太重要的特征鲁棒。现有的文本攻击方法虽然有效，但还不足以应用于实际的文本对抗训练中，本文提出了一种基于同义词替换的快速梯度投影方法（FGPM），我对 FGPM 方法进行详细解读。

当前文本对抗样本的研究

引言中已经提及到在文本域中，词法、语法和语义的约束以及离散的输入空间使得文本对抗样本的生成变得更加困难。目前的攻击方法包括字符级攻击，单词级攻击还有句子级攻击。为了方便查阅我对这些文章进行了汇总具体如下所示：字符级的攻击论文有：

论文标题：

Deep Text Classification Can be Fooled

论文链接：

https://www.ijcai.org/Proceedings/2018/0585.pdf

论文标题：

TextBugger: Generating Adversarial Text Against Real-world Applications

论文链接：

https://arxiv.org/abs/1812.05271

论文标题：

HotFlip: White-Box Adversarial Examples for Text Classification

论文链接：

https://www.aclweb.org/anthology/P18-2006.pdf

单词级的攻击论文有：

论文标题：

Crafting Adversarial Input Sequences for Recurrent Neural Networks

论文链接：

https://arxiv.org/abs/1604.08275

论文标题：

Towards Crafting Text Adversarial Samples

论文链接：

https://arxiv.org/abs/1707.02812

论文标题：

Adversarial Texts with Gradient Methods

论文链接：

https://arxiv.org/abs/1801.07175

论文标题：

Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples

论文链接：

https://arxiv.org/abs/1803.01128

句子级别的攻击论文有：

论文标题：

Adversarial Example Generation with Syntactically Controlled Paraphrase Networks

论文链接：

https://www.aclweb.org/anthology/N18-1170/

论文标题：

Semantically Equivalent Adversarial Rules for Debugging NLP models

论文链接：

https://www.aclweb.org/anthology/P18-1079/

最近的研究表明，对于字符级的攻击，拼写检查器可以很容易地修复干扰。对于单词级别的攻击，HotFlip 虽然可以进行攻击，但是由于句法和语义的限制，无法生成大量的对抗样本。

对于句子级别的攻击，通常是基于转述这样会使得对手生成需要更长的时间。综上所述，文本类的攻击要么面临基于梯度的扰动的语义保持质量的挑战，要么是基于查询的同义词替换的高计算量的成本。

核心思想

该论文中作者提出了一种基于同义词替换的快速梯度投影方法（FGPM），该方法根据梯度大小和原单词与候选单词在梯度方向上的投影距离的乘积来计算每个替换的得分。

FGPM 具有一定的攻击性能和可转移性，同时比目前最快的文本攻击方法快 20 倍左右（时间上的统计）。作者还将通过 FGPM 生成的对抗样本与对抗训练结合起来作为一种模型防御的手段，并扩展到大型神经网络和数据集。

模型介绍

论文作者形式化地定义了用于文本分类的对抗样本，并详细描述了所提出的对抗性攻击方法快速梯度投影法（FGPM）。

4.1 文本对抗样本

设表示包含所有可能输入文本的空间，表示输出空间。设

最低0.47元/天解锁文章