论文笔记：Universal Adversarial Triggers for Attacking and Analyzing NLP

北在哪

于 2021-10-19 17:04:36 发布

阅读量1.7k

点赞数 1

分类专栏： Prompt 自然语言处理文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43183860/article/details/120848857

版权

自然语言处理同时被 2 个专栏收录

23 篇文章

订阅专栏

9 篇文章

订阅专栏

论文链接：https://arxiv.org/abs/1908.07125

代码开源：https://github.com/Eric-Wallace/universal-triggers

1. 主要内容

将输入与一段提示拼接，即可引导模型输出想要的结果，且提示是与输入无关的，任意输入拼接上相同的提示，都大概率会产生特定的结果。

如上图所示，对于情感分析任务，拼接trigger（即提示）会导致模型将正确的预测翻转为否定。对于阅读理解任务，拼接trigger会导致模型将其预测从正确答案（带下划线）更改为trigger内的token。对于生成任务，拼接trigger会导致GPT-2生成带有种族歧视色彩的输出。

2. 核心算法

核心在于如何找到上述trigger，使得模型偏向想要预测的方向。论文设计了一种trigger搜索算法，可以分为以下三步：

1. 以重复的单词“the”，子词“a”，字符“a”初始化trigger；

2. 计算trigger中各个token（ $e_{adv_{i}}$ ）关于目标标签（想要模型预测的标签）的损失，反向传播得到每个token的梯度（ $\nabla_{e_{adv_{i}}}L$ ）；

3. 对于trigger中每个token，遍历词表中所有token embedding（ $e_{i}^{'}$ ），找出使得损失函数的一阶泰勒近似最小的 $e_{i}^{'}$ ，随后将trigger中该位置的token更新为 $e_{i}^{'}$ ：

trigger迭代更新过程如下图所示：

博客等级

码龄7年

111
原创

79
点赞

248
收藏

9
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

论文笔记：Making Pre-trained Language Models Better Few-shot Learners
yyxyyyxxx: 同问，所以是用的穷举的方法吗？
论文笔记：Making Pre-trained Language Models Better Few-shot Learners
xxp2000_: 请问一下，有没有全自动的方案（这是半自动的）
论文笔记：PPT: Pre-trained Prompt Tuning for Few-shot Learning
25小硕勇闯NLP算法diary: 那这种软提示是怎么设计的呢
论文笔记：Prefix-Tuning: Optimizing Continuous Prompts for Generation
爱吃奶糖_: 我还有一些疑惑的地方在于：原始的prefix方法（就是不是后面提到的embedding-only），假设前缀长度是3，那么他相当于只提供了这3个位置的transformer的所有层的向量。但是这个向量是不包含词嵌入层的对吗？（本质上，就不是实体token前缀，所以没有词嵌入层这一说）然后后续的embedding-only，他是认为存在虚拟的token，所以相比于上面说的，多了一个词嵌入层的向量。我这个理解对么？
论文笔记：Prefix-Tuning: Optimizing Continuous Prompts for Generation
爱吃奶糖_: 额外提一句就是，这个blog的最后一句话：“prefix-tuning添加的前缀向量不参与attention计算，每一层都保持不变” 我认为这个是不是这个博主理解错了，如果前缀向量每一层都保持不变，那怎么更新参数啊？这不是矛盾了吗？论文说的就是通过训练来更新这个prefix向量，而保持transformer的参数不变。你认为呢？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。