复旦大学李林阳：应用预训练模型实现对抗样本生成的高效方法

AITIME论道

于 2020-11-25 19:28:48 发布

阅读量2.1k

点赞数

文章标签：算法机器学习人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/AITIME_HY/article/details/110153009

版权

本文提出BERT-Attack，一种利用BERT预训练模型生成对抗样本的方法，针对文本任务进行高效攻击。该方法在保持语义一致性和语法流利性的同时，能以较低的计算成本误导目标模型。实验表明，BERT-Attack在成功率和扰动百分比上优于现有方法。

摘要由CSDN通过智能技术生成

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

针对离散数据（例如文本）的对抗攻击比连续数据（例如图像）更具挑战性，因为很难使用基于梯度的方法生成对抗样本。当前成功的文本攻击方法通常在字符或单词级别上采用启发式替换策略，替换时难以保持语义一致性和语言流畅性。在本文中，作者提出了BERT-Attack，这是一种高质量且有效的方法，可以使用以BERT为例的MLM预训练语言模型来生成对抗性样本。作者使用BERT对抗其微调模型和其他预训练模型，以误导目标模型，使其预测错误。作者的方法在成功率和扰动百分比方面均优于最新的攻击策略，并且生成的对抗性样本很流利，并且在语义一致。而且作者的方法计算成本低，可以大规模生成。

本期AI TIME PhD直播间，我们有幸邀请到了复旦大学 NLP group2019级研究生李林阳分享他的观点。

李林阳：复旦大学 NLP group2019级研究生；导师为邱锡鹏教授；

一、针对文本任务的攻击

尽管深度学习取得了成功，但最近的研究发现神经网络容易受到对抗样本的攻击，这些对抗样本是对原始输入进行细微扰动而制成的。尽管对抗性样本对于人而言几乎不可察觉，但是它们会误导神经网络进行错误的预测。针对对抗性攻击的学习可以提升神经网络的可靠性和健壮性，在计算机视觉领域，攻击策略及其防御措施都得到了很好的探索，但由于语言的离散性，对文本的对抗性攻击较为困难，难以保证语法流利且语义一致。