
摘要
最近,ChatGPT因为能够对人类的询问产生流畅的、高质量的响应而备受关注。先前的一些研究表明,与现有模型相比,ChatGPT具有显著的生成能力。然而,对ChatGPT理解能力的定量分析却很少受到重视。在本报告中,我们通过在最流行的GLUE基准上对ChatGPT进行评估,并将其与4个具有代表性的微调bert风格模型进行比较,来探索ChatGPT的理解能力。我们发现:1)ChatGPT在处理释义和相似任务方面存在不足;2) ChatGPT在推理任务上优于所有BERT模型;3) ChatGPT在情感分析和问答任务上的表现与BERT相当。此外,通过结合一些先进的提示策略,我们表明ChatGPT的理解能力可以进一步提高。
1 引言
大型语言模型(LLMs),如GPT-3(Brown等,2020)和InstructGPT(Ouyang等,2022),已经在自然语言处理(NLP)社区中引起了轰动。由于它们的涌现能力(Wei等,2022a),这些LLMs在多种NLP任务中能够实现令人印象深刻的少量样本和零样本性能。最近,基于InstructGPT(Ouyang等,2022)开发的ChatGPT1,吸引了极大的关注。令人鼓舞的是,与之前的公共聊天机器人不同,ChatGPT能够针对各种人类询问生成流畅且全面的回应,甚至还能纠正不适当的人类问题。
鉴于传统观念认为“GPT风格的模型在生成任务上表现良好,但在理解任务上表现不佳,甚至不如基础大小的BERT(Devlin等,2019)”,我们想知道在ChatGPT场景中是否也存在类似的现象。对于ChatGPT的生成能力,几项先前的研究(Jiao等,2023;Bang等,2023;Wang等,2023)已经显示,ChatGPT在几个生成任务上的性能可以与现有的LLMs相媲美甚至更好。然而,ChatGPT是否在自然语言理解(NLU)任务上也表现良好,这仍然不清楚。
在本报告中,我们提供了一个系统的研究来探讨这个问题:“ChatGPT能否理解?”这个问题是通过在权威且流行的GLUE(Wang等,2019)基准上评估ChatGPT来回答的,该基准涵盖了8个代表性的理解任务,即情感分析、语言可接受性、释义、文本相似性、自然语言推理和问答。作为参考,我们还将其与4个代表性的BERT风格模型进行了比较。通过一系列实验和分析,我们发现:
- ChatGPT在处理释义和相似性任务时表现不佳。具体来说,ChatGPT在负释义和中性相似性样本上表现较差。
- ChatGPT在推理任务上大幅优于所有BERT风格模型,显示出其令人印象深刻的推理能力。
- ChatGPT在情感分析和问答任务上与BERT基础模型表现相当。
尽管ChatGPT在推理任务上表现良好,但它可能会生成一些矛盾或不合理的回应,这可能是其潜在的局限性。
此外,除了分析ChatGPT本身,我们还探索了ChatGPT和一些高级提示策略的互补性,即标准的少量样本提示(也称为上下文学习)(Brown等,2020),手动少量样本链式思维(CoT)提示(Wei等,2022b)和零样本CoT提示(Kojima等,2022)。从经验上讲,我们发现这些提示策略都能一致地提高ChatGPT的性能,其中手动CoT带来的性能提升最为显著。有趣的是,我们还观察到,上下文学习的性能对提供的示例相对敏感,特别是在1次样本场景中,这与Agrawal等(2022)的发现相似。一个可能的原因是,上下文学习的性能与提供的示例与测试数据之间的相关性(例如,相似性)有关。
总结来说,ChatGPT的零样本性能与微调后的BERT基础模型相当。在高级提示策略的帮助下,ChatGPT显示出更好的理解能力,甚至在某些NLU任务上超过了强大的RoBERTa-large模型。然而,在平均性能方面,ChatGPT与微调后的RoBERTa-large之间仍存在性能差距。也就是说,虽然ChatGPT可以很好地解决许多NLP问题,但它仍然无法击败当前的最先进模型(He等,2021;Wang等,2020;Zhong等,2022d;Patra等,2022;Zhong等,2023),特别是在某些NLU任务上。
本报告的其余部分设计如下。我们在第2节介绍评估设置和比较结果。在第3节,我们探讨ChatGPT是否可以通过高级提示策略进行改进。在第4节,我们简要回顾相关工作。结论在第5节描述。
2 ChatGPT vs. BERT
在本节中,我们首先介绍评估设置(§2.1),并介绍主要结果(§2.2)。然后,还提供了ChatGPT性能好坏的一些分析(§2.3)。最后,我们展示了ChatGPT的一些失败示例,以探索其潜在的局限性(§2.4)。
2.1 评估设置
在这里,我们简要介绍评估设置,包括下游任务和数据集、基线以及ChatGPT的提示。在这里,我们简要介绍评估设置,包括下游任务和数据集、基线模型以及ChatGPT的提示。
任务和数据集。遵循许多先前的工作(Zhong等,2022a,2023),我们使用广泛使用的GLUE基准(Wang等,2019)进行模型评估。作为最受欢迎的NLU基准之一,GLUE包含几个具有挑战性的NLU任务,包括语言可接受性(CoLA, Warstadt等(2019)),情感分析(SST-2, Socher等(2013)),释义(MRPC, Dolan和Brockett(2005)),文本相似性(STS-B, Cer等(2017)),问题释义(QQP),文本蕴含(MNLI, Williams等(2018),RTE, Giampiccolo等(2007))和问答蕴含(QNLI, Rajpurkar等(2016))。考虑到测试ChatGPT的限制,我们遵循Jiao等(2023)的方法,从开发集随机抽取一个子集作为每个任务的评估数据。具体来说,由于大多数GLUE任务都是分类任务(除了STS-B是回归任务),我们从开发集每个类别中随机抽取25个实例。对于STS-B,我们从一个均匀分布中随机抽取50个实例。表1显示了任务描述和统计数据。
在评估中,我们报告了大多数任务的准确率(“Acc.”)指标,除了STS-B的皮尔逊和斯皮尔曼相关性(“Pear./Spea.”),CoLA的马修斯相关性(“Mcc.”),以及MRPC和QQP的额外F1分数。
基线模型。我们将ChatGPT(1月31日版本)与4个代表性的BERT风格模型进行比较,因为BERT模型通常被用作评估理解能力的基线(Zhong等,2022b)。具体来说,我们使用了基础大小/大型BERT(Devlin等,2019)和RoBERTa(Liu等,2019)。所有模型都在每个任务的完整训练集上进行微调,其中微调的超参数与Zhong等(2022c)相同。为了估计ChatGPT理解能力的下限,我们主要关注ChatGPT与基础基础大小BERT的比较。
ChatGPT的提示。对于每个任务,我们设计特定于任务的提示来触发ChatGPT的理解能力。具体来说,受到Jiao等(2023)的启发,我们也要求ChatGPT为每个任务生成提示,通过输入以下人类询问:
提供五个简洁的提示或模板,可以让您处理[x]任务


其中[x]是任务插槽。以情感分析任务为例,我们在图1中展示了这个过程。我们在初步实验中用这五个候选提示评估了ChatGPT在情感分析任务上的表现,并发现性能略有差异。因此,为了简化,我们为每个任务选择了一个典型提示,并在表1中展示它们。
2.2 主要结果
GLUE基准测试的完整结果如表2所示。总体而言,ChatGPT可以达到与BERT-base相当的平均性能(78.7% 对比 79.2%),但仍然明显落后于其他强大的BERT风格模型(例如,RoBERTa-large,87.8%)。这些结果显示ChatGPT具备了基本的理解能力,但仍有很大的改进空间。
具体来说,将ChatGPT与BERT-base在特定任务上进行比较,我们可以发现:1)ChatGPT在释义和相似性任务上表现较差,即MRPC和STS-B,其中性能下降高达24分。2)ChatGPT在自然语言推理任务上超越了所有BERT风格模型,即MNLI和RTE,这表明它在推理/推理方面具有优势。3)ChatGPT在单句分类任务上与BERT-base相当,即情感分析(SST-2)和语言可接受性(CoLA),以及QA相关任务,即QNLI。
2.3 分析
如表2所示,ChatGPT在推理任务上工作得很好,但在处理释义和相似任务方面却有所欠缺。在这里,我们将详细研究ChatGPT如何处理这些特殊任务。
推理任务。为了更深入地了解ChatGPT在推理任务上取得令人印象深刻的性能的原因,我们报告了ChatGPT的每类精度,并比较了MNLI和RTE任务上的模型。结果如表3所示。可以看出,在所有设置中,ChatGPT的性能都大大优于BERT-base。特别是在“蕴涵”类中,即前提需要假设,ChatGPT甚至以明显的优势超过了所有强大的BERT模型。这些结果继续显示了ChatGPT的有效推理能力,特别是推理事实输入。

解释的任务。与上述分析类似,我们也在表4中报告了ChatGPT和其他模型在释义任务(即MRPC)上的每类精度。令人惊讶的是,ChatGPT在评估“蕴涵”样本时取得了与BERT-base相当的性能,但是在“not_entailment”类中有一个戏剧性的性能下降(高达47%的分数),其中一对中的句子在语义上不相等。这表明ChatGPT对一对句子之间的语义差异不敏感,这可能与模型训练过程中缺乏人类在这方面的反馈有关。


相似的任务。由于STS-B是一个回归任务,我们从均匀相似分布中选择一些样本,范围从0表示没有意义重叠到5表示意义等效,并分别显示ChatGPT和BERT-base的预测和基本事实之间的绝对差异。如图2所示,在大多数情况下,ChatGPT的表现不如BERT-base,因为它的预测通常与基本事实相差甚远。更具体地说,我们可以观察到,当对中的句子具有较低的相似度(<2.5分)时,ChatGPT的性能更差,这与从表4中观察到。还可以发现,ChatGPT很难准确预测一对句子在决策边界附近的相似度得分(在2.5分左右)。原因之一是ChatGPT没有对STS-B任务进行微调,无法确定正确的决策边界。在第3节中,我们展示了ChatGPT上的高级提示策略可以得到很大的改进。
2.4 案例分析
在这里,我们展示了一些ChatGPT的不良案例,以探索其潜在的局限性,并尝试解释为什么ChatGPT在处理释义任务的负面样本时表现不佳。首先,虽然ChatGPT在推理任务上表现良好,但在某些情况下它仍然无法做出正确的预测。如图3所示,由于ChatGPT强大的生成能力,它可以对两个询问生成流畅的回答。然而,我们观察到这些回答在一定程度上是矛盾的,甚至是不合理的。例如,在上面的案例中,ChatGPT说“...简很饿,这就是她给琼糖果的原因,...”,这非常令人困惑。如果简确实饿了,她不会给琼糖果,而是自己吃糖果。在下面的案例中也有类似的现象,ChatGPT的回答逻辑混乱。总的来说,ChatGPT能够按照一定的模式生成流畅的回答,但在真正推理句子方面似乎存在局限性。一个证据是ChatGPT甚至无法回答如图3所示的问题,而这些问题对人类来说很容易回答。


另一方面,图4展示了ChatGPT在释义任务中的一些失败案例。两个案例都属于“不蕴含”类别。ChatGPT认为两个句子具有相同的语义,因为两个句子都描述了价值的减少(增加),这可以看作是粗粒度的语义相似性。然而,我们可以很容易地发现两个句子之间的主要差异是价值差异,这决定了这些案例的“不蕴含”极性。我们将这种价值差异称为细粒度的语义差异。
这些案例表明,粗粒度和细粒度语义信息之间的这种差异可能是ChatGPT在处理释义任务中的负面样本时遇到困难的原因之一。这也表明,加强ChatGPT提取细粒度语义信息的能力将有效地提高其在释义任务上的性能。
3 使用先进的提示策略改进ChatGPT
如第2节所述,我们主要关注ChatGPT的零射击学习性能,评估结果表明,在一些NLU任务上,ChatGPT与微调后的BERT模型之间仍然存在明显的差距。受到一些先进提示方法的启发(Brown et al, 2020;Wei et al ., 2022b;Kojima等人,2022),可以有效地利用llm的能力,在这里,我们试图研究这些方法是否也可以提高ChatGPT的理解能力,并缩小其与强大的BERT模型的性能差距。
3.1 高级提示策略
在本研究中,我们使用了以下三种流行的提示策略:
- 标准少样本提示:也称为上下文学习(Brown等,2020),它可以简单地通过几个展示任务的输入-输出示例来“提示”模型。具体来说,如图5(b)所示,它通过将几个提示过的示例作为输入的一部分,使ChatGPT能够执行目标任务。
- 手动少样本CoT提示:链式思维(CoT)提示由Wei等(2022b)提出,它提供了手动中间推理步骤(示范)来引导模型逐步输出最终答案。
- 零样本CoT:不同于手动设计示范,Kojima等(2022)提出了一种零样本CoT方法,该方法使用简单直接的基于模板的提示来进行CoT推理。具体来说,如图5(c)所示,我们使用...为了更详细地观察,以CoLA任务为例,我们在图5中展示了配备这些提示策略的ChatGPT的说明。每个任务的更多输入示例可以在附录A.2中找到。
3.2 更多的结果和分析
在GLUE基准测试上,配备高级提示策略的ChatGPT的整体结果如表5所示。为了参考,我们还比较了改进后的ChatGPT与基线BERT-base和强大的RoBERTa-large模型。基于这些实证结果,我们可以进一步发现:
ChatGPT从所有这些提示策略中受益。与基线ChatGPT(78.7%)相比,即零样本ChatGPT,所有这些提示策略都带来了一些性能提升。具体来说,标准少样本提示和零样本CoT分别将ChatGPT的整体性能提升了+5.1%和+5.0%的平均分数。更鼓舞人心的是,在手动少样本CoT的帮助下,ChatGPT实现了高达+7.5%的平均增益,甚至超过了大多数BERT风格的模型(除了RoBERTa-large)。这些结果表明,使用手动-CoT提示ChatGPT可能是利用其能力的帕累托最优前沿。
在1样本场景中,ChatGPT的性能对给定的上下文示例相对敏感。尽管在少样本设置中整体性能有所提升,但我们发现ChatGPT在这些NLU任务上并不始终表现更好,特别是在1样本场景中。更具体地说,当配备标准的1样本提示时,ChatGPT甚至在某些任务上表现更差,例如CoLA、MRPC、MNLI和RTE。我们将其归因于随机抽取的上下文示例与测试数据之间的相关性较低,正如先前的工作(Agrawal等,2022)所示,1样本的噪声无关示例可能会对输出质量产生灾难性的影响。为了进一步验证这个猜想,我们使用不同的1样本示例来执行标准的1样本提示。以CoLA任务为例,比较结果如图6所示。可以看出,1样本性能不稳定,当给出更相关的1样本示例时,ChatGPT可以实现更多的性能增益,证实了我们的说法。

ChatGPT与微调后的RoBERTa-large之间仍然存在性能差距。在手动-CoT的帮助下,ChatGPT实现了令人印象深刻的性能提升,并在某些任务上展示了所有比较模型中的最先进(SOTA)性能,例如CoLA、SST-2和RTE。然而,如图所示,与微调后的RoBERTa-large相比,ChatGPT在某些任务上仍然表现不佳,特别是在复述任务(MRPC)上,差距明显。这些结果继续表明,尽管ChatGPT可以相当好地解决许多NLP问题,但它仍然无法击败当前的SOTA模型,特别是在某些NLU任务上。

注意:一些读者可能会担心我们的工作可能是一种“彩票”,因为我们只评估了每个任务的验证集的一部分。为了消除这种疑虑,我们调查在全数据设置中是否有类似的发现。具体来说,以RTE任务为例,我们分别报告了ChatGPT在少数据和全数据设置下的相应结果,如表6所示。可以发现ChatGPT在这两种场景下展示了类似的特征(例如,显著受益于手动-CoT),表明我们工作的可信度。
4 相关工作
近年来,我们见证了众多基于Transformer的预训练语言模型(PLMs)(Devlin等,2019;Liu等,2019;Brown等,2020;Raffel等,2020;Lewis等,2020;Zhong等,2022a,2023)在各种自然语言处理(NLP)任务中取得了巨大成功。根据模型架构,这些PLMs可以分为三个组:1)仅编码器PLMs(例如,BERT(Devlin等,2019)),2)仅解码器PLMs(例如,GPT-3(Brown等,2020))和3)编码器-解码器PLMs(例如,T5(Raffel等,2020))。由于不同的预训练功能,这些PLMs在执行NLP任务时展现出不同的能力。具体来说,BERT风格的模型基于双向掩码语言建模(MLM)目标,这迫使模型编码上下文信息。通过在特定任务上的微调,这些BERT风格的模型可以在各种自然语言理解(NLU)任务上工作得很好。相反,GPT风格的模型旨在预测未来单词,面向一个单词序列。这种自回归模型非常适合语言生成,但它们是单向的,通常在句子理解的表现学习方面表现不佳(Liu等,2021;Zhong等,2022a)。
最近,许多工作专注于扩大PLMs的规模并开发大型语言模型(LLMs)(Ouyang等,2022;Chowdhery等,2022;Smith等,2022;Zhang等,2022)。Wei等(2022a)表明,当模型规模足够大时,LLMs展现出涌现能力,例如少样本和零样本学习。作为一个典型的LLM,最近发布的ChatGPT因其生成流畅和高质量响应的印象能力而引起了极大的关注。越来越多的研究兴趣在于探索ChatGPT的能力、应用、伦理和失败(Jiao等,2023;Bang等,2023;Qin等,2023;Zhuo等,2023;Wang等,2023)。沿着这条研究路线,我们主要关注分析本报告中的ChatGPT理解能力,这是重要但尚未得到足够关注的领域。
5 结论
在本研究中,我们对ChatGPT在多种自然语言理解任务中的语言理解能力进行了实证研究。通过一系列的定量研究,我们发现ChatGPT在推理任务上表现良好,但在释义和相似任务上表现不佳,尤其是在否定实例上。此外,我们尝试使用一些先进的提示策略来提高ChatGPT的理解能力。结果表明,在这些提示策略的帮助下,ChatGPT可以实现显着的性能改进,甚至在某些任务上优于功能强大的RoBERTa-large。总的来说,ChatGPT与一些经过微调的bert风格模型相比,获得了相当的理解能力,但在一些NLU任务上仍然无法击败目前最好的模型。我们希望我们的研究能够促进更多关于如何解决局限性和提高ChatGPT理解性能的研究。

2万+

被折叠的 条评论
为什么被折叠?



