复旦大学李林阳:应用预训练模型实现对抗样本生成的高效方法

本文提出BERT-Attack,一种利用BERT预训练模型生成对抗样本的方法,针对文本任务进行高效攻击。该方法在保持语义一致性和语法流利性的同时,能以较低的计算成本误导目标模型。实验表明,BERT-Attack在成功率和扰动百分比上优于现有方法。
摘要由CSDN通过智能技术生成

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

针对离散数据(例如文本)的对抗攻击比连续数据(例如图像)更具挑战性,因为很难使用基于梯度的方法生成对抗样本。当前成功的文本攻击方法通常在字符或单词级别上采用启发式替换策略,替换时难以保持语义一致性和语言流畅性。在本文中,作者提出了BERT-Attack,这是一种高质量且有效的方法,可以使用以BERT为例的MLM预训练语言模型来生成对抗性样本。作者使用BERT对抗其微调模型和其他预训练模型,以误导目标模型,使其预测错误。作者的方法在成功率和扰动百分比方面均优于最新的攻击策略,并且生成的对抗性样本很流利,并且在语义一致。而且作者的方法计算成本低,可以大规模生成。

本期AI TIME PhD直播间,我们有幸邀请到了复旦大学  NLP group2019级研究生李林阳分享他的观点。

李林阳:复旦大学  NLP group2019级研究生;导师为邱锡鹏教授;

一、针对文本任务的攻击

尽管深度学习取得了成功,但最近的研究发现神经网络容易受到对抗样本的攻击,这些对抗样本是对原始输入进行细微扰动而制成的。尽管对抗性样本对于人而言几乎不可察觉,但是它们会误导神经网络进行错误的预测。针对对抗性攻击的学习可以提升神经网络的可靠性和健壮性,在计算机视觉领域,攻击策略及其防御措施都得到了很好的探索,但由于语言的离散性,对文本的对抗性攻击较为困难,难以保证语法流利且语义一致。

表1 BERT-Attack方法生成样本的例子

当前对文本的成功攻击通常采用启发式规则来修改单词的字符,并用同义词替换单词。

之前的研究包括使用word embedding生成替换词;对原有句子的短语进行添加或删除;使用人工构建的规则进行词语替换。尽管上述方法取得了良好的效果,但在攻击成功率,语法正确性和语义一致性等方面,仍有很大的改进空间。此外,这些方法的替换策略通常很简单,受限于特定任务。

本文提出了一种有效且高质量的对抗样本生成方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值