【arxiv 2021】Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions

https://arxiv.org/abs/2201.00768

一篇去噪的综述,感觉还是介绍为主,不是特别深入。
这篇有营养的部分主要这两部分

  1. 我们提供了各种最近的鲁棒性性研究的分类,在研究变量的范围内;例如,模型、嵌入技术、度量和技术等。
  2. 我们提供了不同方法及其优缺点之间的对比。

1. 鲁棒性分类

NLP鲁棒性相关分析的简要分类(包括技术、嵌入、评估度量、评估基准(数据集)、攻击空间(威胁模型和粒度)和相关的防御机制)
image
作者介绍了一个斯坦福提出的评估鲁棒性工具–Robust Gym(https://arxiv.org/pdf/2101.04840.pdf)


2. 鲁棒性的一些常用技术

作者整理了许多用于神经语言模型的处理技术,包括具有随机平滑的集成分类器、随机集成、区间边界传播、词识别技术等。下表对应了文章与其对应技术的粗分类。
image

  1. 具有随机平滑的集成分类器:在NLP任务中依赖于单个分类器的一个明显缺陷是,对输入到该分类器的底层输入空间(特性)的操作将对分类器的输出产生重大影响。因此,在不失去一般性的情况下,集成分类器是一种决策依赖于几个单独分类器决策的组合结果的分类器,是一种通过减少训练数据的偏差来在NLP模型中实现一定程度鲁棒性的方法。
  2. 具有随机平滑的随机集合:随机集合是指在底层模型中具有一定的随机性和不确定性的分类器,提出了一种基于一种新的随机平滑技术的鲁棒性方法,该方法通过在输入句子上应用随机词替换来构建随机集成。
  3. 间隔绑定传播:间隔绑定传播(IBP)是一种用于构建可证明的鲁棒机器学习分类器的技术。IBP本质上使用区间算法来定义一个损失,当输入在任何范数有界的球内被扰动时,以最小化任何一对对数之间的最大差值的上界。
  4. 词识别模型:在分类器前添加一个词识别模型,帮助模型将文本转化为更好的表示。

3. 对抗攻击

使用了对抗性攻击来评估NLP系统对真实攻击的鲁棒性。大多数研究工作无论是从攻击粒度的角度(字符级、单词级和句子级的攻击),还是从威胁模型(白盒和黑盒)的角度来解决对抗性攻击问题。

  1. 对抗性稀疏凸组合(ASCC):稀疏凸组合是指将目标输出表示为输入文本的稀疏凸组合的方法。基于这个定义,对于任何输入x和类标签y,一个训练有素的NLP分类模型将每个输入x映射到它的类标签y。给定一个干净的(无扰动的)输入x,一个目标稀疏对抗攻击的目的是找到一个扰动,从而使被扰动的输入x0被错误地分类为一个目标类。这种攻击方法已被许多研究。
  2. 基于种群的对抗性攻击优化:基于种群的优化算法是一种遗传算法,旨在寻找可以改变模型的扰动预测/分类。这是一种黑盒对抗性攻击,即对手无法访问模型的内部结构和参数。
  3. 稀疏投影梯度下降:投影梯度下降法是一种贪婪算法,已广泛应用于机器学习模型。在这种方法中,输入文本中的每个元素都被考虑替换,从所有可能的扰动中选择最佳扰动并重新运行,直到没有更多的扰动。
  4. 词概率加权显著性(PWWS):PWWS是一种贪婪的搜索方法来生成对抗性的例子。该方法的目标是根据某个重要函数对单词进行排序。按降序排列,每个单词被替换为一个候选单词,直到我们成功地干扰所有单词。
  5. 对抗性攻击的群优化算法:粒子群优化算法是一种用于生成对抗性例子的搜索算法。
  6. Metropolis-Hastings Sampling for Adversarial Attacks: 是一种马尔可夫链蒙特卡罗(MCMC)算法,从概率分布生成一序列随机样本。

这些对抗攻击的缺陷:

  1. 虽然在广泛的NLP社区中有关于使用和实现各种攻击技术的重要初步工作,但到目前为止开发的攻击在许多方面都是有限的.
  2. 一般来说,文献中的大部分工作都考虑了特定的任务定义,以分析和理解该攻击的鲁棒性。例如,许多只关注一个特定的任务,如情绪分析,问题回答等。并且没有解决保护NLP模型对抗通用对手的挑战.
  3. 最先进的NLP系统显然很容易受到对抗性攻击,而这反过来又会导致其预测能力的不准确。

4. 鲁棒性评估标准

一般分为攻击成功率,错误率,IBP上下界的紧密性,分类精度,多样性,公平性,以下是围绕着几种指标的相关工作:
image
攻击成功率:攻击成功率是指通过攻击的总体尝试次数成功归一化的尝试次数(例如,满足预先定义的干扰大小和对手目标的有效对抗实例的次数;例如,将分类器的置信度降低到给定的阈值以下,或改变示例的分类标签)。
错误率:指NLP模型错误地分类输入文本的次数。
IBP上下界的紧密性:IBP是一种用于实现鲁棒性的技术。研究人员研究了IBP上下界的紧密性作为度量,以确定和正式验证模型对对抗攻击的鲁棒性程度。即一个模型在不越界的情况下,无论对手如何创建敌对的例子,它都能实现对攻击的鲁棒性。
分类精度:精度度量的简单扩展,是指NLP模型在不同攻击方法(如白盒和黑盒攻击或单词级和字符级替代攻击等设置)下对输入文本进行正确分类的能力。
多样性:意味着一类训练数据的例子与另一类训练数据尽可能不相同,以促进训练数据中的不变性。
公平性:特别是NLP,指的是特定语言理解任务的数据点的公平表示。这个指标还旨在确保NLP模型不会做出错误的假设而产生偏见的结果。

指标的缺陷:

  1. 开发技术评估公平和消除偏见数据评估NLP模型如何执行当部署到real-wold,即将现有的概念和度量扩展到解决数据集中存在的残余和非预期偏差的技术将是有趣的和值得的。
  2. 多样性被理解为作为目标度量的准确性,而如何扩展准确率和召回率作为潜在因素来进行模型评估是值得思考的的。
  3. 需要一个技术,以允许集成和使用IBP紧密性度量与其他指标,如训练精度和正常精度

5. 防御机制

  1. 数据增强
  2. 对抗训练
  3. 多任务学习:多任务学习(MTL)是一种学习技术,使研究人员能够在相关的机器学习任务之间和在相关的机器学习任务之间共享有用的信息或表征。

防御机制的缺点:
(1)到目前为止,可用的对抗性技术在许多方面都是有限的,因为这些模型在部署后将暴露于未知的数据中,量化对抗性训练对快速发展的语言模型的影响将是有趣和值得的。
(2)存在一个差距,能测试不同模型的模型鲁棒性,因为这种背景下的大多数研究工作在特定的模型架构(如BERT、globe等)下进行鲁棒性。为了实现对对抗性攻击的鲁棒性,一个NLP模型必须使用一个在不同数据集上的多个体系结构进行评估。例如,在情绪分析任务中,NLP模型应该使用GLUE基准数据集上的嵌入,如WoW、GloVe、Word2Vec和RoBERTa来评估。
(3)虽然数据增强已被证明可以提高模型预测的精度,但它还没有被彻底地检查,以看到其对模型性能的长期影响。因为语言模型在部署到实际工作后会发生位移和漂移。


总结:整篇文章还是一个对鲁棒性整理分类,然后提出优缺点的模式。相关的文章串联在文中,按它的总结,咱们之前的调研都在提升防御机制这块,这个文章比较有意思的还是在对抗攻击那部分,感觉如何攻击也是一个挺好的方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值