⬆⬆⬆ 点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
针对离散数据(例如文本)的对抗攻击比连续数据(例如图像)更具挑战性,因为很难使用基于梯度的方法生成对抗样本。当前成功的文本攻击方法通常在字符或单词级别上采用启发式替换策略,替换时难以保持语义一致性和语言流畅性。在本文中,作者提出了BERT-Attack,这是一种高质量且有效的方法,可以使用以BERT为例的MLM预训练语言模型来生成对抗性样本。作者使用BERT对抗其微调模型和其他预训练模型,以误导目标模型,使其预测错误。作者的方法在成功率和扰动百分比方面均优于最新的攻击策略,并且生成的对抗性样本很流利,并且在语义一致。而且作者的方法计算成本低,可以大规模生成。
本期AI TIME PhD直播间,我们有幸邀请到了复旦大学 NLP group2019级研究生李林阳分享他的观点。
李林阳:复旦大学 NLP group2019级研究生;导师为邱锡鹏教授;
一、针对文本任务的攻击
尽管深度学习取得了成功,但最近的研究发现神经网络容易受到对抗样本的攻击,这些对抗样本是对原始输入进行细微扰动而制成的。尽管对抗性样本对于人而言几乎不可察觉,但是它们会误导神经网络进行错误的预测。针对对抗性攻击的学习可以提升神经网络的可靠性和健壮性,在计算机视觉领域,攻击策略及其防御措施都得到了很好的探索,但由于语言的离散性,对文本的对抗性攻击较为困难,难以保证语法流利且语义一致。
表1 BERT-Attack方法生成样本的例子
当前对文本的成功攻击通常采用启发式规则来修改单词的字符,并用同义词替换单词。
之前的研究包括使用word embedding生成替换词;对原有句子的短语进行添加或删除;使用人工构建的规则进行词语替换。尽管上述方法取得了良好的效果,但在攻击成功率,语法正确性和语义一致性等方面,仍有很大的改进空间。此外,这些方法的替换策略通常很简单,受限于特定任务。
本文提出了一种有效且高质量的对抗样本生成方法