论文翻译:Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations

Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations

重新审视自然语言处理中的分布外鲁棒性:基准测试、分析与大型语言模型评估

摘要

本文重新审视了自然语言处理领域中关于分布外(OOD)鲁棒性的研究。我们发现,先前研究中的分布偏移设置通常缺乏足够的挑战,阻碍了对OOD鲁棒性准确评估。为了解决这些问题,我们提出了一种基准构建协议,确保清晰的区分和具有挑战性的分布偏移。然后我们介绍了BOSS,一个用于分布外鲁棒性评估的基准测试套件,涵盖5个任务和20个数据集。基于BOSS,我们对预训练语言模型进行了一系列的实验,分析和评估OOD鲁棒性。首先,对于普通的微调,我们检查了分布内(ID)和OOD性能之间的关系。我们识别出三种典型类型,揭示了内在的学习机制,这可能有助于预测OOD鲁棒性,与ID数据集上的进步相关。然后,我们在BOSS上评估了5种经典方法,发现尽管在特定情况下表现出一定的有效性,但与普通微调相比,它们并没有提供显著的改进。进一步,我们评估了5种不同的适应范式的大型语言模型(LLMs),发现当有足够的ID数据可用时,微调特定领域的模型在ID示例上显著优于LLMs。然而,在OOD实例的情况下,优先考虑具有上下文学习能力的LLMs可以获得更好的结果。我们发现,无论是微调的小模型还是LLMs,在有效解决下游任务方面都面临挑战。代码已公开在https://github.com/lifan-yuan/OOD_NLP。

1 引言

预训练语言模型(PLMs)在下游任务中表现出色,并获得了广泛的应用[24, 60]。然而,现有的评估通常假设独立同分布(i.i.d)条件[94, 92],这在现实世界场景中经常被违反,凸显了NLP模型中分布外(OOD)鲁棒性的关键问题。在本文中,我们首先通过检查评估基准来重新审视PLMs的评估。之后,我们深入研究通过采用不同模型规模、训练步骤、可用训练样本和可调参数来微调模型的ID-OOD性能相关性。最后,我们对当前的增强鲁棒性方法和大型语言模型(LLMs)进行了广泛的评估。

在这里插入图片描述

定义。文献中存在多种OOD的定义[2, 115],我们从两个角度定义了本文考虑的分布偏移。首先,[2]将分布偏移分类为“语义偏移”和“背景偏移”。我们使用的“分布外”与图1中的“背景偏移”概念一致,这涉及到文本的领域或风格的变化,同时保持语义内容。其次,[115]正式定义了三种类型的分布偏移:协变量偏移、标签偏移和概念偏移。在我们的工作中,我们主要关注协变量偏移和概念偏移的组合。这表明模型需要很好地泛化到不同的输入特征(即协变量偏移)并适应数据中潜在概念的变化(即概念偏移)。

基准。我们的研究首先调查了关于NLP中OOD鲁棒性的现有文献(表8)。我们观察到,由于没有单一的统一数据集评估集,因此缺乏为NLP量身定制的标准OOD基准套件,导致在先前工作中采用基于启发式和基于流行的数据集选择策略[39, 109, 107]。这种方法存在两个主要缺点:(1) 所选的OOD数据集可能来自与ID数据集类似的分布,将OOD评估降低为ID设置,从而阻碍了严格的OOD鲁棒性评估;(2) 分布偏移带来的挑战有限,偏离了基准构建原则[8]对难度的预期,并可能导致对语言模型的OOD鲁棒性估计过高。结果,当前的OOD鲁棒性基准可能无法充分评估NLP模型。

为了解决上述问题,我们建立了如图1所示的协议,包括三个基本原则,用于选择ID和OOD数据集:(1) ID数据集应该是大型和多样化的,以获得全面的知识;(2) OOD数据集的选择应优先考虑不同的分布和差异性,关于文本来源和语义;(3) 应优先考虑基于性能下降的具有挑战性的分布偏移,以确保基准能够经受时间的考验[8]。根据协议,我们编制了BOSS,一个更全面和具有挑战性的NLP基准套件,用于OOD鲁棒性评估。与仅考虑单一任务类型的现有基准不同,例如分类[39, 107]或阅读理解[109],BOSS涵盖了更广泛的任务格式,包括情感分析、毒性检测和自然语言推理用于分类,命名实体识别用于结构化预测,以及用于阅读理解的抽取式问答。我们为每个任务建立一个ID和三个相应的OOD数据集。

分析。我们认识到在NLP领域缺乏对模型学习行为的分析,关于ID性能和OOD泛化,这阻碍了OOD鲁棒性的发展和理解。因此,我们使用BOSS基准调查ID和OOD数据集上的性能相关性。为了调节ID性能,我们操纵了四个相关因素,即模型规模、训练步骤、可用训练样本和可调参数。观察到三种典型的ID-OOD相关性类别,即单调线性正相关、单调分段线性正相关和非单调V形相关(见图2)。我们在第3节中讨论了这些确定相关性的潜在原因。

评估。在检查了香草微调中PLMs的学习机制之后,我们仔细检查了它们与现有增强鲁棒性方法的性能,然后继续对流行的LLMs进行评估。由于缺乏标准基准,对现有方法的先前评估可能是不精确的,因此可能误导了对这一领域进展的估计。此外,鉴于LLMs[9, 89]在NLP研究中的日益关注,评估它们在处理OOD挑战中的有效性并探索不同适应范式的效力是至关重要的。

对于增强鲁棒性的方法,我们在BOSS上评估了五种代表性方法[99]。我们的主要观察是香草微调(即经验风险最小化)仍然是一个强大的基线,而某些方法在某些情况下可能略微提高OOD性能。我们进一步评估了各种LLMs和适应范式。我们考虑了三种最近的流行的LLMs,即LLaMA[89]、OpenAI text-davinci-003[9]和OpenAI gpt-3.5-turbo。我们包括两个相对较小的模型T0-3B[81]和T5-3B[77]进行比较。我们对一个或多个模型应用了零样本推理、上下文学习、少样本微调和全数据微调。通过我们的实验,我们发现当提供足够的训练数据时,微调特定领域的模型仍然是处理ID示例的首选,而利用具有上下文学习的LLMs则更适合解决OOD实例。此外,我们观察到上下文学习对泛化能力的影响因模型而异。我们在第4.2节中提供了更详细的讨论。

2 BOSS基准测试

2.1 动机

NLP模型应在不同的分布上表现出鲁棒性,以确保可靠的应用。为此,一个标准化和公认的评估OOD鲁棒性的基准测试至关重要。然而,先前在构建基准测试方面的努力主要依赖于随机选择和数据集的流行度,缺乏系统设计[39, 109, 107]。因此,我们识别出两个缺陷:
(1) 数据集相似性,以情感分析中的SST和IMDb数据集为例[83, 64],它们共享电影评论并表现出高度的语义相似性(见表2)。这模糊了ID和OOD评估之间的界限,阻碍了对OOD鲁棒性的严格评估;(2) 分布偏移挑战有限,例如,一个在亚马逊数据集上训练的模型在IMDb上测试时的高准确率(见表3)。然而,我们考虑的Dynasent[75]上的显著性能下降表明,OOD鲁棒性在情感分析任务中仍然是一个关键问题。因此,需要在所有数据集选择中普遍适用的挑战[8]。

2.2 构建OOD基准的协议

我们的目标是建立一个标准基准,用于严格评估NLP中的OOD鲁棒性。为了解决上述问题,我们首先从Paperswithcode2、Kaggle3和ACL Anthology 4网站上调查并收集现有的候选数据集。我们考虑数据集的发布日期和公共可用性。然后我们仔细检查三个标准来确定ID和相应的OOD数据集。第一个标准侧重于ID数据集的选择,另外两个标准是为OOD数据集提出的,分别针对先前工作中的两个问题。
ID数据集应为模型处理任务提供足够的知识。ID数据集应包含全面的任务级知识[44],使模型能够掌握完成任务所需的潜在逻辑。否则,如果模型仅学习有偏特征,它可能在分布偏移期间难以适应其他特征。为此,ID数据集必须具备以下特征:(1) 足够大的规模;(2) 多样性,这是通过从多个来源收集或包括多个子类型(即风格、主题、正式程度等)来实现的。我们的直觉与[87]一致,该研究表明在大型和多样化的数据集上训练可以提高视觉模型的鲁棒性。

给定任务内的数据集应来自不同的分布,以进行全面评估。我们通过数据来源多样性的定性分析和使用SimCSE[31]进行语义相似性的定量测量来保证这一点。为避免重叠,我们每个文本来源最多选择一个数据集。此外,我们确保基准中的OOD数据集表现出相对较低的语义相似性,从而增强了独特性。

分布外(OOD)偏移应该是具有挑战性的,以便准确评估在OOD鲁棒性方面的进展[8]。为了量化挑战,我们在ID(分布内)数据集上训练一个模型,并在所有候选数据集上测试它。具体来说,除了命名实体识别(NER)任务外,我们在四个任务上使用手动模板调整T5-large [77]模型;对于NER任务,由于缺乏标准基于提示的调整方案,我们采用DeBERTa-large [38]进行传统微调。因此,本文中的所有实验都遵循这种模型选择。对于每个文本来源,我们首先排除在语义上与ID数据集相似的候选数据集。然后,为了构建具有挑战性的分布偏移,我们优先选择引起ID模型性能下降最严重的数据集,并将其作为我们基准测试中的OOD数据集。

2.3 数据集选择

我们以情感分析为例,展示我们如何根据我们的协议为每个任务选择ID和OOD数据集。其他任务的选择过程可以在附录D中找到。
候选数据集。我们首先收集Paperswithcode、Kaggle和ACL Anthology上的所有情感分析数据集,如前所述。我们筛选出2010年之前发布的数据集,因为随着预训练语言模型的出现,它们大多已经被解决[25]。结果,七个数据集作为候选数据集保留,即Amazon [65]、DSC [48]、Dynasent [75]、IMDb [64]、SemEval [70]、SST [83]和Yelp [116]。考虑到数据集中类别数量的不一致性,我们通过将它们转换为三类分类设置来对齐它们。有关数据集处理程序的详细说明,请参见附录C.2。

探测实验。根据我们的协议,评估ID数据集选择时的数据集大小和文本来源。随后,语义相似性和ID模型性能下降指导OOD数据集的选择。为此,我们进行了两个探测实验:(1) 使用SimCSE比较候选数据集对的语义相似性;(2) 评估选定ID模型的性能。在第一个实验中,为了获得更好的语义表示,我们采用了[31]提供的最好的SimCSE模型,这是一个有监督的RoBERTa-large [60]。我们从Huggingface5加载模型检查点。对于每个数据集,我们首先将每个样本编码为连续嵌入,然后计算数据集中嵌入的平均值以获得数据集的质心表示。最后,我们计算两个质心之间的余弦相似度作为两个数据集之间的语义相似性。在第二个实验中,我们在选定的ID数据集上训练一个T5-large模型,并在所有候选数据集上评估其性能。
在这里插入图片描述
数据集选择。数据集信息和语义相似性分别在表1和表2中提供。数据集的文本来源包括产品评论、电影评论、Twitter和对抗性文本。我们观察到,来自同一来源的数据集倾向于展示更高的SimCSE得分,表明语义相似性更高。值得注意的是,对于IMDb和SST,这是情感分析中广泛使用的ID-OOD数据集对[39, 107],SimCSE得分显示在数据集对中是最高之一。这加强了先前基准测试的第一个缺陷,即数据集对具有相似的语义和不清晰的分布偏移。因此,与现有实践相反,我们的基准测试构建只考虑每个来源的一个数据集。

对于ID数据集的选择,我们首先排除DSC和IMDb,因为它们是二元分类数据集,在这些数据集上训练的模型无法处理未见类别中性。对于数据集大小,由于每个类别的样本数量有限(少于10k),我们忽视了SemEval和SST。在剩余的数据集中,选择Amazon作为情感分析的ID数据集,因为它包含了来自29个不同产品类别的评论,提供了比Yelp更大的多样性。

在这里插入图片描述
对于OOD(分布外)数据集的选择,我们在ID(分布内)数据集上(即Amazon)训练一个T5-large模型,并在所有候选数据集上评估它,如表3所示。我们之所以将Dynasent和SemEval纳入基准测试套件,有以下原因:(1) 它们是唯一可用的对抗性和Twitter数据集;(2) 它们表现出低语义相似性;(3) 它们显示出明显的性能下降,这使得它们在评估中至关重要。对于电影评论,由于与IMDb相比SimCSE得分较低,以及ID模型的性能下降更大,因此优先选择SST。最终,这在情感分析任务中产生了三种独特且具有挑战性的分布偏移:Amazon → (Dynasent, SemEval, SST)。

在这里插入图片描述

2.4 BOSS基准

在这里插入图片描述

基于前述协议,我们推出BOSS,一个用于评估OOD(分布外)鲁棒性的自然语言处理(NLP)基准测试套件。BOSS包含五个基本的NLP任务:情感分析(SA)、毒性检测(TD)、自然语言推理(NLI)、命名实体识别(NER)和抽取式问答(EQA)。这些任务代表了多样化的实际应用,并为评估模型的能力提供了全面覆盖,从分类、结构化预测到抽取等方面。基准测试中的每个任务包括一个ID数据集和三个相关的OOD数据集(见表4)。

情感分析。Amazon [65]包含了来自Amazon网站的29个不同类别产品的评论。DynaSent [75]首先从几个现有数据集中识别出自然具有挑战性的句子,然后采用人工和模型参与的注释方法创建对抗性句子。SemEval [70]是一个关注推文的三类情感分析数据集。SST [83]由Rotten Tomatoes网站上的句子级电影评论组成。

毒性检测。Civil Comments [6]包含了Civil Comments平台上的公开评论,用户来自不同群体,包含各种类型的有毒文本。AdvCivil,本文中引入的新有毒数据集,是通过自动化模型参与的对抗性流程从Civil Comments生成的。详情请参见附录C.1。Implicit Hate [29]包含显式和隐式的有毒推文。后者可以绕过基于关键词的有毒检测系统。ToxiGen [36]由GPT-3 [9]合成,涵盖了针对13个少数群体的几种微妙和隐式的有毒文本。

自然语言推理。MNLI [102]提供了十种不同类别的书面和口头句子对,风格多样,主题广泛,正式程度不一。ANLI [73]是一个采用人工和模型参与的方法收集的对抗性数据集,其中每个前提主要来自维基百科,假设由人工对抗者生成。ContractNLI [49]将每个合同视为前提,并在整个数据集中持有一组固定的假设。WANLI [59]由GPT-3 [9]合成,每个示例包含在MNLI中识别出的具有挑战性的模式。

命名实体识别。Few-NERD [26],可以说是NER领域最大的数据集,将大约188k维基百科句子标记为八个粗粒度的实体类型。CoNLL [88]采用路透社新闻的故事,包含四种基本实体类型。E-NER [3]基于法律文本。本文中使用的是四类别版本,将所有法律实体视为杂项。WNUT [23]从Twitter收集训练数据,并从Reddit、StackExchange、Twitter和YouTube挖掘测试数据,包含Few-NERD中的六个粗粒度实体类型。

在这里插入图片描述
图 2:ID-OOD性能之间的三种代表性相关性:(a) 类型 I(单调线性正相关)表明随着ID性能的提高,OOD性能也一致地线性提高。 (b) 类型 II(单调分段线性正相关)在转折点之后展现出加速的OOD性能增长。 © 类型 III(非单调V形相关)显示了最初的负相关,随后在转折点之后变为正相关。图(a)中的( r^2 )值为0.9677,图(b)中左右拟合的值分别为0.9553和0.9396,而在图©中分别为0.7690和0.8124。

抽取式问答。SQuAD [78]基于维基百科段落构建问题-答案对。AdversarialQA [4]以类似于ANLI的人工和模型参与过程,为SQuAD中的上下文编写对抗性问题。NewsQA [90]为CNN新闻文章编写问题,每个问题都需要推理才能回答,而不是仅仅依赖于词的重叠和文本蕴含。SearchQA [28]采用反向构建流程,使用谷歌搜索引擎为J!Archive网站上的每个问答对检索相关上下文。

3 OOD鲁棒性分析

尽管NLP中的OOD鲁棒性已经被广泛研究[43],但一个潜在的问题是使用非标准基准,如第2节所讨论的,导致得出不准确的结论。为了解决这个问题,我们进行了一系列实证分析和评估,以深入了解NLP中的OOD鲁棒性。先前的研究主要集中在方法比较上,而没有深入探讨模型的学习行为。因此,我们首先通过评估ID和OOD性能之间的相关性来分析模型的学习机制。

设置。我们在不同条件下评估ID和OOD性能之间的相关性。我们通过改变模型的规模、训练步骤、可用训练样本和可调参数来操纵模型的ID性能。更多的实现细节可以在附录E.1中找到。

结果。我们观察到,在五个任务的数据集上,ID和OOD性能之间的相关性是不一致的,但可以大致归为三种类型(见图2):单调线性正相关(类型 I)、单调分段线性正相关(类型 II)和非单调V形相关(类型 III)。我们还在图3中发现了一个异常案例,它不属于任何三类。完整的结果在图4中展示。

类型 I。这是在情感分析、命名实体识别的所有ID-OOD对中观察到的相关性中最普遍的类型,以及毒性检测的大多数。如图2a所示,在这一类中,OOD性能与ID性能呈正相关并且线性相关,表明在源分布上学到的任务知识可以有效推广到其他分布。这一观察结果与计算机视觉领域的结果一致[68],表明在不同的模型架构、超参数、训练数据集大小和训练持续时间下,OOD性能与ID性能呈线性相关。然而,最小二乘法拟合的线的斜率比y = x图的斜率要平缓,并且最终位于对角线下方,这意味着在分布偏移下模型的性能下降将随着ID性能的提高而加剧。
在这里插入图片描述
图 3:OOD性能与ID性能表现出负相关。具体图例请参考图 2。

4 OOD鲁棒性评估

4.1 增强鲁棒性的方法

在分析了在普通微调下PLMs的学习行为后,我们检查了它们在其他方法训练下的性能。尽管已经提出了大量方法来提高PLMs的鲁棒性,但它们的评估依赖于非标准基准,这可能导致评估不准确,阻碍了进展的清晰性。因此,在本节中,我们首先进行广泛的实验,重新评估各种增强鲁棒性方法的有效性。

设置。我们考虑了[99]总结的增强鲁棒性方法的类别:数据驱动、模型和基于训练、基于归纳先验以及因果干预方法。我们从每个类别中选择最具代表性的一个进行评估。具体来说,我们选择EDA [101]和FreeLB [118]作为数据驱动方法,标签平滑[84]和焦点损失[58]作为模型和基于训练的方法,以及模型集成[16]作为基于归纳先验的方法。由于因果干预方法通常应用于资源受限的场景,我们不考虑这类方法。如2.3节所述,我们将上述方法应用于NER任务的DeBERTa基础模型,以及其他任务的T5基础模型。

结果。结果在表5中显示,标记‘-’表示某种方法不适用于该任务。我们总结了以下要点:

要点1:普通的微调(经验风险最小化)仍然是一个强大的基线。尽管现有方法在某些数据集上如E-NER、WNUT和NewsQA上超过了普通微调,但它们显示出有限的优越性或可能损害模型性能。具体来说,只有FreeLB在一半以上的数据集上显示出有益的效果,成为最有效的方法。相反,基于归纳先验的集成是最差的,除了SemEval数据集外,一致导致性能下降。

要点2:方法的有效性是一致的,但仅限于特定数据集。如表5所示,多种方法在多个数据集上持续展现出(无效)有效性。然而,没有一种方法在同一任务的所有数据集上持续表现良好。

总结来说,当前的方法未能满足提高模型OOD鲁棒性的期望,突显了对更先进的改进技术的迫切需求。

表 5:增强鲁棒性方法的评估。超过普通基线的结果被下划线标出。为了节省空间,我们使用代表数据集的缩写。请参考表 4获取它们对应的完整数据集名称。
在这里插入图片描述

表 6:在BOSS上对LLMs的评估。Small Ref代表表 5中(普通)监督微调的小模型的结果。我们观察到,当有足够的ID数据时,在测试ID样本时,微调特定领域的模型是占主导地位的。相反,在处理OOD实例时,应该优先考虑具有上下文学习功能的LLMs。
在这里插入图片描述

4.2 大型语言模型

LLMs正日益受到NLP研究者的注意。考虑到LLMs令人印象深刻的零样本/少样本能力,以及它们在微调和上下文学习范式上的巨大差异,同样有趣的是将它们在各种下游任务上的泛化能力进行基准测试,并探索利用它们能力的最佳范式。

设置。我们考虑了三个杰出的最新LLMs,LLaMA-7B和LLaMA-13B(即LLaMA系列)[89],OpenAI text-davinci-003 [9]和gpt-3.5-turbo(分别记为Davinci3和Turbo)。为了比较,我们还包括了两个相对较小(但仍然很大)的模型,T0-3B [81]和T5-3B。我们对所有这些模型进行了基于任务指令的零样本推理,因为这种范式最具普适性。然后,我们以模型特定的方式采用其他范式。对于T5-3B,我们包括了5样本和全数据微调,我们还从ID数据集中选择样本进行上下文学习。对于其他三个LLMs,我们应用了两种上下文的上下文学习,一种来自ID数据集,另一种来自评估的OOD数据集的原始训练分割,分别记为ICL和ICL*。实现细节在附录E.2中。

结果。我们在表6中展示了结果,其中标记‘-’表示由于缺乏训练分割或上下文窗口大小的限制,ICL*范式不适用于这些数据集。我们的发现可以总结如下:

要点1:当有足够的训练数据时,微调小型特定领域的模型是更优秀的,而LLMs可能在资源受限的情况下更受青睐。具体来说,有监督的微调小型模型和使用整个数据集的T5-3B在ID数据集上始终表现出最佳性能,特别是在结构预测任务上(例如,NER)。相反,LLMs在大多数OOD数据集上展现出更好的性能。这一观察结果强化了大预训练模型具有强大的泛化能力的观点,然而,即使没有大量的参数,只要有足够的训练数据,也可以实现对数据分布的准确估计[76]。

要点2:上下文学习对于小型模型的泛化能力总是没有帮助,而它通常有助于Turbo并且显著提高了LLaMA系列和Davinci3的性能。对于像T5-3B这样的小型模型,上下文学习的性能与零样本推理相同甚至更差。对于Turbo,提供ID样本进行上下文学习在近三分之二的数据集上展现出优势,NER任务受益最大。对于LLaMA系列和Davinci3,上下文学习的优势非常明显,因为它在大多数数据集上提高了性能。
要点3:来自ID数据集的样本通常对上下文学习比来自测试OOD数据集原始训练分割的样本更有效。具体来说,当考虑将我们的OOD数据集中的样本作为上下文时,Turbo的性能与使用ID样本相当,而LLaMA系列和Davinci3模型与使用ID样本作为上下文相比,性能始终较差。然而,当利用我们的OOD数据集中的上下文时,所有模型在EQA任务上都表现出性能提升。这可能归因于EQA数据集中样本长度或问题风格的变异,因此模型从原始训练样本中获得了更精确的指令。ICL*的整体无效性可以用[69]的发现来解释。根据[69],上下文示例旨在引导模型学习目标标签空间,而不是特征-标签映射。由于我们的基准构建过程,ID示例包含更多样化的信息。因此,与可能针对特定领域的OOD示例相比,ID示例能更好地提示语言模型定位目标标签空间。

讨论。在开发下游NLP系统时存在两种普遍的范式:利用通用的大型语言模型或收集特定领域的数据以微调较小的模型。对于第一种范式,通用大型语言模型开发的总体目标是使用单一模型解决各种下游任务[9]。因此,预期大型语言模型在ID和OOD数据集上都表现出高性能。然而,我们的研究揭示了与特定领域微调模型相比,大型语言模型在ID数据集上的不足。考虑到与大型语言模型相关的更高的推理和部署成本,为了有效提高大型语言模型在开发下游应用方面的表现,特别是对于像EQA这样具有挑战性的任务,仍然需要取得实质性进展。对于第二种范式,我们的研究揭示了与大型语言模型相比,在ID数据集上微调模型在OOD性能上的局限性。因此,需要进一步研究开发先进技术,以增强特定领域微调模型的鲁棒性。总体而言,现有的两种普遍范式在解决NLP中的OOD问题上仍然存在不足,需要进一步的发展和有效的方法。

然而,我们也注意到在我们的评估中可能存在混杂因素。鉴于大型语言模型已经在大量公共语料库上进行了预训练,哪些数据集确实是对大型语言模型的OOD仍然不明确。潜在的数据污染问题可能导致我们的OOD数据集上的性能过高,这使得LLMs的记忆和泛化能力受到质疑。对于大型语言模型来说,唯一确定的分布偏移是时间偏移,因此需要基于预训练数据收集截止后发布的数据进行评估。因此,NLP社区需要独立的新下游数据集,以满足对大型语言模型评估的要求。

5 相关工作

NLP中的分布偏移已经以多种形式被广泛研究。我们检查了下面概述的几个代表性案例。领域偏移指的是测试数据来自不同领域带来的挑战,通常由于从不同来源收集数据[63, 40, 53, 79]。时间偏移检查模型性能随时间的下降[42, 1]。偶然相关性检查模型在ID数据上获取特定数据集知识的问题,这些知识可能无法有效泛化到OOD数据[66, 73, 91, 32, 37, 16, 17]。此外,当面对人为构建的OOD样本时,模型需要表现出鲁棒性。一种典型类型是恶意对抗性攻击,涉及评估模型对恶意对手制作的输入的弹性[56, 51, 112]。这些输入与ID样本不同,有可能引起模型失败[12]。对抗性攻击也可以有效地用于模拟多样化的用户输入,以检查模型在现实世界中的鲁棒性[98, 13, 33]。另一个类别是后门攻击,其特点是有意引入偶然相关性,攻击者可以利用这些相关性获得优势[18, 55]。

NLP中的OOD评估可以分为自动和静态评估方法。自动评估利用多种文本转换技术,如引入错别字,对OOD鲁棒性进行严格的评估。自动OOD评估的三个基本要素包括建立合适的转换方法、评估指标和确保样本有效性的技术[34, 98]。与自动化方法相比,静态评估提供了构建更高质量的基准的优势,从而改善了对OOD鲁棒性的估计。已经引入了许多OOD基准,专注于对抗性攻击[96]或偶然相关性[117, 66]。与我们的研究相关的是GLUE-X[107],它从GLUE基准[93]中建立了一个OOD基准。然而,他们没有建立一个连贯的基准构建协议,主要依赖于按流行度驱动的数据集选择,将数据集纳入基准而没有全面的解释,并且似乎是有些随意的选择,因此缺乏系统方法。

6 结论

我们重新审视了NLP中的OOD鲁棒性研究,发现了基准和评估的不足。相应地,我们提出了一个基准构建协议和一个OOD鲁棒性评估套件,以促进未来的研究。调查了OOD与ID性能之间的相关性、现有方法的有效性以及LLMs面临的挑战。

局限性
我们确定了这项工作中的两个局限性。首先,如4.2节中所讨论的,由于社区中缺乏新数据集,有可能一些数据集已经被包括在LLMs的预训练语料库中,因此它们可能不适合测试最近LLMs的泛化能力。然而,我们注意到,通过我们的基准构建协议,我们可以轻松地随着新数据集的出现而更新基准。其次,我们在这个基准中只考虑了五个任务,这不是当前NLP文献的全面集合。我们在附录A.1中解释了当前任务选择的原因。

  • 25
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值