©PaperWeekly 原创 · 作者|孙裕道
学校|北京邮电大学博士生
研究方向|GAN图像生成、情绪对抗样本生成
论文标题:
Fast Gradient Projection Method for Text Adversary Generation and Adversarial Training
论文链接:
https://arxiv.org/abs/2008.03709
引言
本文是关于文本类对抗样本的生成的文章。要清楚的是由于图片和文本数据内在的不同,用于图像的对抗攻击方法无法直接应用于文本数据上。
首先图像数据是连续的(准确地说是近似连续,因为图像像素值是 0 到 255 的整数值,但是如果输出的像素值是浮点数可以进行取整操作),但文本数据是离散的(比如有一个 one-hot 编码为 000001 表示的“道”字,那么编码 000010 表示的字与道字不存在连续性)。
这也就是为什么当前文本生成图像整体的生成质量普遍不高的原因,因为不能很好地将图像的连续空间与文本的离散空间统一起来。
其次,仅仅对像素值进行微小的改变就可以造成图像数据的扰动,而且这种扰动是很难被人眼察觉的。但是对于文本的对抗攻击中,小的扰动很容易被察觉,但人类同样能猜出本来表达的意义。
因此 NLP 模型需要对可辨识的特征鲁棒,而不像视觉只需要对不太重要的特征鲁棒。现有的文本攻击方法虽然有效,但还不足以应用于实际的文本对抗训练中,本文提出了一种基于同义词替换的快速梯度投影方法(FGPM),我对 FGPM 方法进行详细解读。
当前文本对抗样本的研究
引言中已经提及到在文本域中,词法、语法和语义的约束以及离散的输入空间使得文本对抗样本的生成变得更加困难。目前的攻击方法包括字符级攻击,单词级攻击还有句子级攻击。为了方便查阅我对这些文章进行了汇总具体如下所示:字符级的攻击论文有:
论文标题:
Deep Text Classification Can be Fooled
论文链接:
https://www.ijcai.org/Proceedings/2018/0585.pdf
论文标题:
TextBugger: Generating Adversarial Text Against Real-world Applications
论文链接:
https://arxiv.org/abs/1812.05271
论文标题:
HotFlip: White-Box Adversarial Examples for Text Classification
论文链接:
https://www.aclweb.org/anthology/P18-2006.pdf
单词级的攻击论文有:
论文标题:
Crafting Adversarial Input Sequences for Recurrent Neural Networks
论文链接:
https://arxiv.org/abs/1604.08275
论文标题:
Towards Crafting Text Adversarial Samples
论文链接:
https://arxiv.org/abs/1707.02812
论文标题:
Adversarial Texts with Gradient Methods
论文链接:
https://arxiv.org/abs/1801.07175
论文标题:
Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples
论文链接:
https://arxiv.org/abs/1803.01128
句子级别的攻击论文有:
论文标题:
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks
论文链接:
https://www.aclweb.org/anthology/N18-1170/
论文标题:
Semantically Equivalent Adversarial Rules for Debugging NLP models
论文链接:
https://www.aclweb.org/anthology/P18-1079/
最近的研究表明,对于字符级的攻击,拼写检查器可以很容易地修复干扰。对于单词级别的攻击,HotFlip 虽然可以进行攻击,但是由于句法和语义的限制,无法生成大量的对抗样本。
对于句子级别的攻击,通常是基于转述这样会使得对手生成需要更长的时间。综上所述,文本类的攻击要么面临基于梯度的扰动的语义保持质量的挑战,要么是基于查询的同义词替换的高计算量的成本。
核心思想
该论文中作者提出了一种基于同义词替换的快速梯度投影方法(FGPM),该方法根据梯度大小和原单词与候选单词在梯度方向上的投影距离的乘积来计算每个替换的得分。
FGPM 具有一定的攻击性能和可转移性,同时比目前最快的文本攻击方法快 20 倍左右(时间上的统计)。作者还将通过 FGPM 生成的对抗样本与对抗训练结合起来作为一种模型防御的手段,并扩展到大型神经网络和数据集。
模型介绍
论文作者形式化地定义了用于文本分类的对抗样本,并详细描述了所提出的对抗性攻击方法快速梯度投影法(FGPM)。
4.1 文本对抗样本
设 表示包含所有可能输入文本的空间, 表示输出空间。设