一 背景:
Deep Learning-based Text Understanding (DLTU)简介:
基于深度学习的文本理解(DLTU)广泛运用于问答、机器翻译和文本分类,情感分析(eg 电影评论分类)、有害内容检测(讽刺、讽刺、侮辱、骚扰和辱骂内容)等安全敏感应用中。
DLTU天生容易受到对抗性文本攻击,在对抗性文本攻击中,恶意制作的文本会触发目标DLTU系统和服务行为不当。
二 介绍
本文的target:
提出TEXTBUGGER,一种用于生成对抗性文本(对抗攻击,是一种攻击,不是对攻击进行对抗)的通用攻击框架。并且本文进一步讨论了缓解此类攻击的可能防御机制以及攻击者的潜在对策,为进一步的研究指明了方向。
过往技术的局限性:
现有的对抗样本研究工作主要在图像领域,特别在图像分类领域成功率很高,扰动通常可以使人类的感知几乎无法察觉。文本领域的对抗攻击会更加复杂,在文本领域,微小的扰动通常是清晰可见的,替换单个单词可能会彻底改变句子的语义。现有的针对图像的攻击算法不能直接应用于文本,需要研究新的攻击技术和相应的防御方法。
过往的生成对抗文本机制:
通过用词汇表外的单词替换单词来生成对抗性文本
局限性 :(i