论文阅读《Universal Adversarial Triggers for Attacking and Analyzing NLP》

摘要

定义了通用的对抗触发器(Universal Adversarial Triggers):找到一段特定token序列(触发序列),使其连接到输入数据的前端或末尾时,触发模型产生特定预测。我们提出了一种在tokens上的梯度导向搜索,它可以找到成功触发目标预测的短触发序列。

算法

假设模型f,文本输入t,以及一个目标标签y'。对抗攻击的=目的是将触发标记tadv连接到t的前面或结尾,假设前面则用f(tadv;t)=y'表示。

在通用目标攻击中,对tadv进行优化,以使数据集中所有输入的目标类y'的损失最小化。这转化为以下目标

首先选择触发器的长度:较长的触发器更有效,而较短的触发器更隐蔽。然后通过重复单词“the”、子单词“a”或字符“a”来初始化触发器序列,并将触发器连接到所有输入的前端/后端。

然后,迭代地替换触发器中的token,以最小化一批样本中目标预测的损失。为了确定如何替换当前的token,利用HotFlip(Ebrahimi et al.,2018b)用梯度近似替换效果的方法。为了应用这种方法,触发器tadv用独热向量表示,嵌入到eadv中。

标签替代策略HotFlip

更新每个触发token的嵌入层向量eadv,在模型词向量字典中选一个替换token,使得当前token嵌入层损失的一阶泰勒近似最下

对于我们所考虑的所有模型来说,这种蛮力处理是简单并行的,而且比运行前向通道开销小。最后,在找到每个eadvi之后,将嵌入向量转换回token。下图提供了搜索算法的图示

????不是很懂,这样的话结果不是取决于最后一批样本吗,也不完全是,因为是在链接了对抗样本之后求导,但还是觉得很没有道理。。。

我们还提出用beam search 搜索替换。对于触发器中的每个token位置,考虑等式2中的前k个token候选。从左到右搜索各个位置,并使用当前批次的损失对每个beam进行评分。由于计算限制(附录A),我们使用较小的beam size,这个策略可能会改进我们的结果。

对抗攻击举例

情感分析

为了避免负面例子的“惊人”等退化触发因素,我们使用一个词汇将情绪词列入黑名单。5我们从一个tar-geted攻击开始,使用三个前置触发词将正面预测翻转为负面预测。我们的at-tack算法返回“分区攻丝fiennes”——在正样本中,预先设置这个触发器会导致模型的准确率从86.2%下降到29.1%。我们进行了一次类似的攻击,将消极预测转变为积极预测,从而获得“喜剧布鲁塔斯基”——这导致模型的准确率从86.6%下降到23.6%。附录B中的图5显示了减少/增加触发器长度的效果。例如,从正面到负面的攻击,使用一个词的准确率降低到46%,使用十个词的准确率降低到13%。

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值