论文笔记:Universal Adversarial Triggers for Attacking and Analyzing NLP

论文链接:https://arxiv.org/abs/1908.07125

代码开源:https://github.com/Eric-Wallace/universal-triggers

1. 主要内容

        将输入与一段提示拼接,即可引导模型输出想要的结果,且提示是与输入无关的,任意输入拼接上相同的提示,都大概率会产生特定的结果。

        如上图所示,对于情感分析任务,拼接trigger(即提示)会导致模型将正确的预测翻转为否定。对于阅读理解任务,拼接trigger会导致模型将其预测从正确答案(带下划线)更改为trigger内的token。对于生成任务,拼接trigger会导致GPT-2生成带有种族歧视色彩的输出。

2. 核心算法

        核心在于如何找到上述trigger,使得模型偏向想要预测的方向。论文设计了一种trigger搜索算法,可以分为以下三步:

        1. 以重复的单词“the”,子词“a”,字符“a”初始化trigger;

        2. 计算trigger中各个token(e_{adv_{i}})关于目标标签(想要模型预测的标签)的损失,反向传播得到每个token的梯度(\nabla_{e_{adv_{i}}}L);

        3. 对于trigger中每个token,遍历词表中所有token embedding(e_{i}^{'}),找出使得损失函数的一阶泰勒近似最小的e_{i}^{'},随后将trigger中该位置的token更新为e_{i}^{'}

         trigger迭代更新过程如下图所示:

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值