A Prompting-based Approach for Adversarial Example Generation andRobustness Enhancement

偷懒不学习

已于 2023-07-16 16:54:31 修改

阅读量110

点赞数

文章标签：对抗样本人工智能自然语言处理

于 2023-07-16 16:53:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Seaern/article/details/123730909

版权

文章介绍了一种新的词级攻击策略，区别于基于候选词集的搜索方法，它利用预训练语言模型(PLM)在特定上下文中生成替换词，通过恶意触发器影响模型预测，创建更自然的攻击文本。该方法包括即时构建和候选生成两个步骤，其中触发器设计是关键，用于引导掩码填充过程改变模型的行为。

摘要由CSDN通过智能技术生成

词级生成

现有的词级攻击主要基于从一些预先给定的候选词集中搜索替换词。我们的生成攻击方法会提示PLM在恶意触发文本的影响下修改原始输入中的某些单词。与这些基于搜索的攻击不同，我们的方法不从给定的集合中选择替换，而是在给定的上下文中生成替换。因此，它可以生成更丰富、更流畅的句子。PAT包括两个主要步骤：即时构建和候选生成。

我们提出了一种变体提示构造方法，该方法包含两个主要步骤：屏蔽x中的某些位置以获得x0，以及将x0与恶意触发器连接。为了引导掩码填充过程改变下游模型的预测，应该设计一个触发器，它是包含攻击者恶意目的的附加文本。这种触发器可能与标签有关。给出一个普通示例x，这两个步骤可以简单地写为：

偷懒不学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。