mfc static 文本自适应宽度_基于单双词的自适应单调启发式搜索的文本攻击

最新推荐文章于 2021-04-10 13:38:57 发布

weixin_39685130

最新推荐文章于 2021-04-10 13:38:57 发布

阅读量218

点赞数

文章标签： mfc static 文本自适应宽度

本文链接：https://blog.csdn.net/weixin_39685130/article/details/111712426

版权

深度神经网络 (DNNs) 对图像领域的敌对攻击表现出了脆弱性。对抗图像( adversarial image) 通常是在一张原始图像上进行少量的像素扰动而生成的。这些像素扰动很难被人眼察觉到，但却能在很大程度上误导 DNNs 的判断。然而，自然语言处理 (NLP) 领域中 DNNs 的脆弱性普遍被低估，特别是对于那些安全敏感的 NLP 任务，如垃圾邮件过滤、网页钓鱼、情绪分析等。与图像攻击相比，在生成对抗文本( adversarial text )时存在不小的困难。首先，文本对抗性样本必须保证单词拼写正确、句法正确、语义相似，以确保人类察觉不到对抗性的修改。其次，图像中的像素值是连续的，而文本序列中的单词是离散的。因此，直接计算每个单词的模型梯度是不可行的。第三，从人类的感知角度来说，即使对图片中的多个像素进行微小的扰动，仍然可以产生有意义的图像。然而，对文本文档的进行任何微小改变，哪怕是一个单词，都可能使句子变得毫无意义。现有的文本攻击算法主要可以分为三类：基于字符的攻击 ( character-level) 、基于单词的攻击 ( word-level attack) 、基于句子的攻击 ( sentence-levelattack) 。基于字符的攻击 ( 如： noise -> nosie )会导致词汇错误，而基于句子的攻击(即将整个句子插入原始文本 ) 通常会导致语义上的重大变化。为了避免这些问题，许多最近的工作集中在基于单词的攻击，即用另一个精心选择的单词替换原来的单词。然而，现有的方法大多是为每个单一的单词( unigram )生成替代候选词，这很容易破坏常用短语，导致无意义的输出 ( 如： high school tall school) 。此外，在对单词替换顺序进行排序时，大多数算法都会计算单词重要值 (word important score, WIS) ，并通过 WIS 的降序进行攻击。使用这种静态攻击顺序的一个主要缺点是单词替换不灵活，例如，顺序地选择前 3 个 WIS 单词 {top1,top2,top3} 可能不会成功误导分类器，但有时组合 {top1,top3} 却可以攻击成功。

图1 BU-MHS算法流程图

在本文中，我们提出了一种新的基于单词的攻击方法——Bigram and Unigram based Monotonic Heuristic Search (BU-MHS)，有效地解决了上述问题。与传统的单字符词攻击不同，我们同时考虑单词(unigram)替换和双词(bigram)替换。在我们的方法中，我们通过用同义词替换一个双词组(例如，high school secondary school)来生成更自然的文本。此外，我们建议通过同时考虑同义词和与义位一致的词来替换输入词。通过合并这些互补的备选项，我们有更好的选择来编写高质量的对抗性文本。更重要的是，我们提出了一种有效的候选词搜索方法，即Monotonic Heuristic Search (MHS) 来确定词的优先级。图1展示了我们算法的流程图。本工作的主要贡献总结如下：

为了产生自然的对抗性样本，避免语义错误，我们提出了在单字符级和双字符级对文本文档进行攻击的建议。
我们提出了一种混合的方法，从同义词候选词和义素候选词产生替换。这种互补的组合使我们能够写出更有意义的对抗性例子。
我们设计MHS来有效地对替换词进行优先排序，这将单词修改的数量最小化，并减少语义和句法错误。

数据库本文使用了三个公开的数据集：IMDB、AG’s News、Yahoo! Answers。其中IMDB是一个二元情感分析数据库，共包含50,000条电影评论。AG’s News是一个新闻分类数据集，包含127600个新闻样本，这些样本分为四类。Yahoo！Answers是一个10类的主题分类数据库，包含1,400,000个训练样本和60,000个测试样本。

实验设置我们将攻击算法应用于四种深度学习模型，包括Word CNN, Character-based CNN (Char-CNN), Word LSTM, Bidirectional LSTM (Bi-LSTM).我们选用了6中对比算法，包括RAND，WSA，PWWS，PSO，TextFooler(TEFO)，BERT-ATTACK(BEAT)。为了验证我们的BU-MHS(以及另外两个版本U-MHS，HU-MHS)算法的有效性，我们采用两个衡量标准：攻击成功率(Successful Attack Rate, SAR)和平均修改单词个数。正常来说，一个理想的文本攻击算法目的是通过修改尽量少的单词来实现尽可能高的攻击成功率。

实验结果 Table 3和Table 4分别列出了攻击成功率和平均修改单词个数的实验结果。Table 3和Table 4中的结果说明我们的HU-MHS, BU-MHS, U-MHS几乎包揽了表现最好的前三名。实验结果表明，通过改变最小的词数，我们的BU-MHS与现有的其他模型相比，获得了最高的攻击成功率。为了证明双词替换的优越性，我们对IMDB(Table 6)、AG’s News(Table 7)、Yahoo! Answers(Table 8)分别列出了三个对抗样本。从对抗样本中可以看出，我们的双词替换可以大大减少语义的改变。例如，在Table 7中，我们的方法替换了一个符号(Olympic Games Olympiad)，与HU-MHS变化两个单词相比，前者引起的语义变异较少。

可迁移性(transferability)对抗性样本的迁移性是指通过误导某一个特定的模型F而产生的对抗性样本是否会误导其他的模型F’。为了验证迁移能力，我们将攻击Word CNN生成的对抗样本用于其他三个结构不同的模型，分别命名为Word CNN2, Word CNN3, Word CNN4，以及LSTM模型。图2展示了迁移攻击的结果。从图2可知，我们的算法取得了最好的迁移攻击表现。

对抗性再训练(Adversarial retraining)对抗性再训练是通过将对抗性样本加入到训练集中来提高模型鲁棒性的有效方法。在这个实验中，我们用AG’s News随机生成了{500，1000，1500，2000}个对抗样本来再训练Word CNN模型。Figure 3给出了训练后Word CNN在测试集中的识别结果。实验结果表明，我们BU-MHS生成的对抗样本对于提高模型鲁棒性更有效。另外，我们还通过攻击再训练的模型来评估再训练的模型是否对对抗性攻击免疫。Table 9的结果表明，经过再训练的受害者模型能够在一定程度上抵抗攻击。我们的BU-MHS在再训练后比PWWS带来更高的SAR，说明仅仅通过对抗性再训练很难对BU-MHS进行防御。

针对性攻击(Targeted attack)针对性攻击是指将分类器误导为某一指定的目标类。为了验证针对性攻击的表现，我们在AG’s News做了大量实验，将分类器分别误导为四个目标类：0 (World), 1 (Sports), 2 (Business), 3 (Sci/Tech). 表10的结果表明，对于所有的受害模型，我们的BU-MHS都比PWWS获得了更高的SAR和更少的替换词。这意味着我们的方法对于目标攻击和非目标攻击都是有效的。

Table 10：Targetedattack on AG's News dataset by attacking three victim models. The four targetlabels are 0 (World), 1 (Sports), 2 (Business), and 3 (Sci/Tech).

论文引用

Xinghao Yang, Weifeng Liu, James Bailey, Dacheng Tao, Wei Liu. “Bigram and Unigram Based Text Attack via Adaptive MonotonicHeuristic Search.” Accepted by the 35th AAAI Conference on ArtificialIntelligence, 2021.

weixin_39685130

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mfc static 文本自适应宽度_基于单双词的自适应单调启发式搜索的文本攻击

深度神经网络(DNNs)对图像领域的敌对攻击表现出了脆弱性。对抗图像(adversarial image)通常是在一张原始图像上进行少量的像素扰动而生成的。这些像素扰动很难被人眼察觉到，但却能在很大程度上误导DNNs的判断。然而，自然语言处理(NLP)领域中DNNs的脆弱性普遍被低估，特别是对于那些安全敏感的NLP任务，如垃圾邮件过滤、网页钓鱼、情绪分析等。与图像攻击相比，在生成对抗文...
复制链接

扫一扫