mfc static 文本自适应宽度_基于单双词的自适应单调启发式搜索的文本攻击

深度神经网络 (DNNs) 对图像领域的敌对攻击表现出了脆弱性。对抗图像( adversarial image)  通常是在一张原始图像上进行少量的像素扰动而生成的。这些像素扰动很难被人眼察觉到,但却能在很大程度上误导 DNNs 的判断。然而,自然语言处理 (NLP) 领域中 DNNs 的脆弱性普遍被低估,特别是对于那些安全敏感的 NLP 任务,如垃圾邮件过滤、网页钓鱼、情绪分析等。 与图像攻击相比,在生成对抗文本( adversarial text )时存在不小的困难。首先,文本对抗性样本必须保证单词拼写正确、句法正确、语义相似,以确保人类察觉不到对抗性的修改。其次,图像中的像素值是连续的,而文本序列中的单词是离散的。因此,直接计算每个单词的模型梯度是不可行的。第三,从人类的感知角度来说,即使对图片中的多个像素进行微小的扰动,仍然可以产生有意义的图像。然而,对文本文档的进行任何微小改变,哪怕是一个单词,都可能使句子变得毫无意义。 现有的文本攻击算法主要可以分为三类:基于字符的攻击 ( character-level) 、基于单词的攻击 ( word-level attack) 、基于句子的攻击 ( sentence-levelattack) 。基于字符的攻击  ( 如: noise -> nosie )会导致词汇错误,而基于句子的攻击(即将整个句子插入原始文本 ) 通常会导致语义上的重大变化。为了避免这些问题,许多最近的工作集中在基于单词的攻击,即用另一个精心选择的单词替换原来的单词。然而,现有的方法大多是为每个单一的单词( unigram )生成替代候选词,这很容易破坏常用短语,导致无意义的输出 ( 如: high school  tall school) 。此外,在对单词替换顺序进行排序时,大多数算法都会计算单词重要值 (word important score, WIS) ,并通过 WIS 的降序进行攻击。使用这种静态攻击顺序的一个主要缺点是单词替换不灵活,例如,顺序地选择前 3 个 WIS 单词 {top1,top2,top3} 可能不会成功误导分类器,但有时组合 {top1,top3} 却可以攻击成功。

4362bad345c7632245578ce10cb469a5.png

1 BU-MHS算法流程图

在本文中,我们提出了一种新的基于单词的攻击方法——Bigram and Unigram based Monotonic Heuristic Search (BU-MHS),有效地解决了上述问题。与传统的单字符词攻击不同,我们同时考虑单词(unigram)替换和双词(bigram)替换。在我们的方法中,我们通过用同义词替换一个双词组(例如,high school  secondary school)来生成更自然的文本。此外,我们建议通过同时考虑同义词和与义位一致的词来替换输入词。通过合并这些互补的备选项,我们有更好的选择来编写高质量的对抗性文本。更重要的是,我们提出了一种有效的候选词搜索方法,即Monotonic Heuristic Search (MHS) 来确定词的优先级。图1展示了我们算法的流程图。本工作的主要贡献总结如下:

  • 为了产生自然的对抗性样本,避免语义错误,我们提出了在单字符级和双字符级对文本文档进行攻击的建议。

  • 我们提出了一种混合的方法,从同义词候选词和义素候选词产生替换。这种互补的组合使我们能够写出更有意义的对抗性例子。

  • 我们设计MHS来有效地对替换词进行优先排序,这将单词修改的数量最小化,并减少语义和句法错误。

数据库本文使用了三个公开的数据集:IMDB、AG’s News、Yahoo! Answers。其中IMDB是一个二元情感分析数据库,共包含50,000条电影评论。AG’s News是一个新闻分类数据集,包含127600个新闻样本,这些样本分为四类。Yahoo!Answers是一个10类的主题分类数据库,包含1,400,000个训练样本和60,000个测试样本。

实验设置我们将攻击算法应用于四种深度学习模型,包括Word CNN, Character-based CNN (Char-CNN), Word LSTM, Bidirectional LSTM (Bi-LSTM).我们选用了6中对比算法,包括RAND,WSA,PWWS,PSO,TextFooler(TEFO),BERT-ATTACK(BEAT)。为了验证我们的BU-MHS(以及另外两个版本U-MHS,HU-MHS)算法的有效性,我们采用两个衡量标准:攻击成功率(Successful Attack Rate, SAR)和平均修改单词个数。正常来说,一个理想的文本攻击算法目的是通过修改尽量少的单词来实现尽可能高的攻击成功率。

实验结果 Table 3和Table 4分别列出了攻击成功率和平均修改单词个数的实验结果。Table 3和Table 4中的结果说明我们的HU-MHS, BU-MHS, U-MHS几乎包揽了表现最好的前三名。实验结果表明,通过改变最小的词数,我们的BU-MHS与现有的其他模型相比,获得了最高的攻击成功率。为了证明双词替换的优越性,我们对IMDB(Table 6)、AG’s News(Table 7)、Yahoo! Answers(Table 8)分别列出了三个对抗样本。从对抗样本中可以看出,我们的双词替换可以大大减少语义的改变。例如,在Table 7中,我们的方法替换了一个符号(Olympic Games  Olympiad),与HU-MHS变化两个单词相比,前者引起的语义变异较少。

f85c3b75d4cad98ad2b53983e0192fd1.png

5a2a41b35dcc737607d4137617d3a64c.png

dd9a90c95ec124f830c1b9b865d1f505.png

20f8a1db1b74c8c9239fe1e802b010c8.png

0e4b033de721ea958714cf8f8a675547.png

可迁移性(transferability)对抗性样本的迁移性是指通过误导某一个特定的模型F而产生的对抗性样本是否会误导其他的模型F’。为了验证迁移能力,我们将攻击Word CNN生成的对抗样本用于其他三个结构不同的模型,分别命名为Word CNN2, Word CNN3, Word CNN4,以及LSTM模型。图2展示了迁移攻击的结果。从图2可知,我们的算法取得了最好的迁移攻击表现。

a538b0437023c8381c1e65d7a1f13421.png

对抗性再训练(Adversarial retraining)对抗性再训练是通过将对抗性样本加入到训练集中来提高模型鲁棒性的有效方法。在这个实验中,我们用AG’s News随机生成了{500,1000,1500,2000}个对抗样本来再训练Word CNN模型。Figure 3给出了训练后Word CNN在测试集中的识别结果。实验结果表明,我们BU-MHS生成的对抗样本对于提高模型鲁棒性更有效。另外,我们还通过攻击再训练的模型来评估再训练的模型是否对对抗性攻击免疫。Table 9的结果表明,经过再训练的受害者模型能够在一定程度上抵抗攻击。我们的BU-MHS在再训练后比PWWS带来更高的SAR,说明仅仅通过对抗性再训练很难对BU-MHS进行防御。

d786b3fac96e129f08493cfb1907617d.png

d71f28b337d890cb85009888127026ce.png

针对性攻击(Targeted attack)针对性攻击是指将分类器误导为某一指定的目标类。为了验证针对性攻击的表现,我们在AG’s News做了大量实验,将分类器分别误导为四个目标类:0 (World), 1 (Sports), 2 (Business), 3 (Sci/Tech). 表10的结果表明,对于所有的受害模型,我们的BU-MHS都比PWWS获得了更高的SAR和更少的替换词。这意味着我们的方法对于目标攻击和非目标攻击都是有效的。

2c07ab4acb2158c528cc66ec35eb6e93.png

Table 10:Targetedattack on AG's News dataset by attacking three victim models. The four targetlabels are 0 (World), 1 (Sports), 2 (Business), and 3 (Sci/Tech).

论文引用

Xinghao Yang, Weifeng Liu, James Bailey, Dacheng Tao, Wei Liu. “Bigram and Unigram Based Text Attack via Adaptive MonotonicHeuristic Search.” Accepted by the 35th AAAI Conference on ArtificialIntelligence, 2021.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。 目标检测任务可分为两个关键的子任务,目标定位和目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标和右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率和各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择性搜索)来生成候选框。第二个阶段是分类和位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类和定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表性的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果和当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框和真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中Precision和Recall的概念。 首先我们设置置信度阈值(Confidence Threshold)和IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 Precision和Recall的概念如下图所示: Precision表示TP与预测边界框数量的比值 Recall表示TP与真实边界框数量的比值 改变不同的置信度阈值,可以获得多组Precision和Recall,Recall放X轴,Precision放Y轴,可以画出一个Precision-Recall曲线,简称P-R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值