lstm 文本纠错_一文尽览!文本对抗攻击基础、前沿及相关资源

本文深入探讨了文本对抗攻击的分类、方法及其在深度学习模型中的影响,特别是在文本纠错中的应用。文章指出,对抗攻击在文本领域的研究相对较新,但已经引起广泛关注。针对LSTM的情感分析模型,对抗攻击可以通过词替换产生误导模型的对抗样本。文章介绍了词级、句级和字级攻击的差异,强调词级攻击在保持语法正确性和攻击成功率方面的优势。此外,还提到了基于义原的词替换和离散粒子群优化在提高攻击效果方面的贡献。最后,提供了相关的资源和工具,如TextAttack和OpenAttack,以促进文本对抗攻防研究的发展。
摘要由CSDN通过智能技术生成

以下文章出自微信公众号:学术头条

文章来源:北京智源人工智能研究院

原文链接:请点击

文章仅用于学习交流,如有侵权请联系删除

导读:深度学习的安全性问题已经逐渐被学术界、工业界所认识到并且重视,就文本领域而言,垃圾邮件检测、有害文本检测、恶意软件查杀等实用系统已经大规模部署了深度学习模型,安全性对于这些系统尤为重要。但相比于图像领域,文本领域对抗攻击的研究还远远不够。特别是文本离散的特点使得对抗样本的生成更具挑战性,也有更多的研究空间。我们欣喜地看到,目前有越来越多的 NLP 研究者开始探索文本对抗攻击这一方向,以 2020 年 ACL 为例,粗略统计有超过 10 篇相关论文,其中最佳论文 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList[23]中大部分测试方法其实和文本对抗攻击有异曲同工之妙。

近年来,随着深度学习的迅速发展,尤其是各种神经网络模型被大规模部署在人脸识别、机器翻译、欺诈检测等实用系统之中,其安全性风险也越来越为人所关注和重视。其中,对抗攻击(Adversarial Attack)[1,2]是目前研究最多的安全性风险。

对抗攻击指的是对目标机器学习模型的原输入施加轻微扰动以生成对抗样本(Adversarial Example)来欺骗目标模型(亦称为受害模型,Victim Model)的过程。对抗攻击可以暴露机器学习模型的脆弱性,进而提高模型的鲁棒性和可解释性,在图像领域已经有广泛的研究[3]。在图 1 所示的例子中,将噪声加到一张原来可被 CNN 图像分类模型正确识别的熊猫图片后,该分类模型错误地识别为长臂猿,尽管人肉眼完全无法分辨加噪声前后两张图片的区别。

cec922eaa2b0f0ab22d17153d57fa78c.png

文本领域同样有类似的情况。在图 2 所示的例子中,上半部分是一条电影的差评,可以被基于 LSTM 的情感分析模型正确判断其情感倾向为负面,然而如果将其中的某些词做同义替换,如“terrible”替换为“horrific”或“horrifying”,原来的情感分析模型却给出了情感为正面的错误答案。

06d967f86a282436ef8376bfd460e479.png

由于文本离散的特点,相比于图像、声音等连续信号媒介,文本领域的对抗攻击更具挑战性。哪怕是小到一个字的改动也可能会破坏原文本的语法正确性和流畅性,使得产生的对抗样本质量较差。更有甚者对原输入的扰动会引起文本语义的根本性改变——例如,将“这部电影很好看”改为“这部电影很难看”,其情感倾向完全颠倒——而这样的对抗样本是无效的,因为攻击者所预期的情感分析模型的判断发生变化(从“正面”变为“负面”)并不是错误的。

一、文本对抗攻击的分类

图像领域对抗攻击及其防御已被大规模研究(据粗略统计 CVPR 2020 有超过 60 篇相关论文),文本领域对抗攻击的研究近两年才逐渐受到关注。现有的文本对抗攻击可以从以下三个维度进行分类:

(1) 指向性

使受害模型给出指定的错误判断的攻击称为指向性攻击(Targeted Attack),例如使文本分类模型在处理对抗样本时均给出某一特定类的判断;相应地非指向性攻击(Untargeted Attack)则只要求对抗样本使模型判断出错即可。

(2) 受害模型可见性

对抗攻击中,攻击者对受害模型所知多少大有不同。

最理想的情况是攻击者完全掌握受害模型,可以调用受害模型来获取其相对于某一给定输入的输出结果并且知道其内部的所有参数。在这种情况下,攻击者往往可以利用类似梯度下降的优化方法来调整扰动进而产生对抗样本。这样的设定称为白盒(White-Box)设定,相应的对抗攻击被称为基于梯度的攻击(Gradient-Based Attack)。

和白盒设定相对的是黑盒(Black-Box)设定,在这种设定下,攻击者无法得知受害模型的内部结构及参数,仅仅可以调用受害模型来获取

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值