摘 要
大型语言模型(LLM)的规模不断扩大,为各种需要推理的复杂任务(如算术和常识推理)带来了新兴能力。众所周知,任务特定提示的有效设计对于llm产生高质量答案的能力至关重要。特别是,对于复杂的问答任务,一种有效的方法是基于示例的思维链(CoT)推理提示,这大大提高了LLM的性能。然而,当前的CoT方法依赖于一组固定的人工注释示例,这些示例不一定是针对不同任务的最有效示例。本文提出了一种新的方法,Active-Prompt,通过任务特定的示例提示(用人工设计的CoT推理注释)使LLM适应不同的任务。为此,我们提出了一个解决方案,以解决从特定于任务的查询池中确定哪些问题是最重要和最有帮助的注释问题的关键问题。
通过借鉴基于不确定性的主动学习相关问题的思想,我们引入了几个度量来表征不确定性,从而选择最不确定的问题进行标注。实验结果证明了该方法的优越性,在8个复杂推理任务上取得了优异的成绩。进一步分析了不同的不确定性度量、池大小、零学习和准确性-不确定性关系,证明了我们的方法的有效性。
1 引言
大型语言模型(LLMs)(Raffel等人,2020年;Brown等人,2020年;Chowdhery等人,2022年;Zhang等人,2022年a;Tay等人,2022年;Scao等人,2022年;Zeng等人,2022年;Smith等人,2022年)近年来取得了巨大成功。应用LLMs的一种典型方式是通过提供一系列指令和示例进行上下文学习(Brown等人,2020年),这在传统的语言理解和生成任务上表现良好,但在复杂的推理任务上表现较差(Rae等人,2021年;Liang等人,2022年;Wei等人,2022年a)。
最近的研究(Wei等人,2022年b;Wang等人,2022年;Zhou等人,2022年)发现,在示例中详述推理步骤可以赋予LLMs良好的推理能力,即所谓的链式思维(CoT)提示。然而,链式思维提示依赖于人工工程:它需要人类选择一些信息丰富的问题,然后使用CoT和答案进行注释。
人类注释的示例(带有注释CoT和答案的问题)对于不同任务来说不一定是最有效的。例如,原始的链式思维提示(Wei等人,2022年b)为八个问题制定了示例,这些问题要么从训练集中随机选择,要么由人工编写。由于推理任务在难度、范围、领域等方面存在显著差异,我们不知道哪种问题最值得注释。也不清楚特定的示例集是否最适合引出所需信息。然而,好消息是,为不同任务注释八个示例是微不足道的。这花费很少的钱和人力。鉴于此,我们将关键问题定位为如何确定哪些问题最重要、最有助于注释。我们提出了一种解决方案,通过利用不确定性和引入少量人力来注释一小部分问题。注释预算是合理的。
借鉴基于不确定性的主动学习方法(Gentile等人,2022年)的相关问题,我们引入了几种指标来刻画模型对每个问题的预测中的不确定性。因此,我们提出了一种新的基于不确定性的注释策略,从下游数据集中选择一些问题,并让人类注释推理链,从而显著提高性能。具体来说,给定一个数据集D,我们首先让模型回答k次。然后,我们根据k次答案计算模型的不确定性u。利用u,我们选择不确定性最大的n个问题,并由专家注释这些问题以制定新的示例E。最后,我们按照链式思维提示的标准方法(Wei等人,2022年b),将E附加到每个测试问题之前。我们提出的方法的示意图如图1所示。
图1:我们建议的方法的示例。有四个阶段。(1)不确定性估计:有或没有一些人工编写的思想链,我们查询大型语言模型k(在本例中为k“5”)多次,以通过中间步骤为一组训练问题生成可能的答案。然后,我们通过不确定性度量根据k个答案计算不确定性u(我们在本例中使用分歧)。(2)选择:根据不确定性,选择最不确定的问题进行标注。(3)标注:我们让人对选定的问题进行标注。(4)推理:用新标注的样例推断每个问题。
文献中有几种不同的不确定性估计方法(Settles,2009年;Culotta和McCallum,2005年)。在我们的主要实验中,我们通过所有预测答案的不一致性和熵来刻画不确定性u。此外,我们还研究了其他不同的不确定性指标,如方差和自信度。对于自信度,我们使用新模板重新组织生成的答案和问题,然后询问模型对此生成的自信度。在这种情况下,u被定义为一个分类变量,来自{非常自信,自信,不自信,错误答案}。观察到不一致性、熵和方差表现相似,而自信度不起作用,因为LLMs倾向于过于自信。我们在涵盖算术推理、常识推理和符号推理的八个数据集上进行了实验,实验结果表明我们提出的方法通过超越竞争基准模型而有效。对不同不确定性指标、池大小、零样本学习以及准确性与不确定性关系的进一步分析显示了每个提出模块的好处并揭示了它们的效果。我们的贡献有三方面:1)我们提出精挑细选对注释最有帮助和信息丰富的问题,减少人工工程的工作量。2)我们引入了一种有效的基于不确定性的问题选择策略,并采用了几种不同的不确定性指标。3)我们的方法在多个推理任务上大幅超越了竞争基准模型。据我们所知,我们的研究是首次展示在链式思维提示中主动问题选择对于解决复杂数字推理任务的好处。
2 Active-Prompt
我们的方法示意图在图1中展示。给定未标记的训练数据 和测试数据,每个q和p表示没有答案或推理步骤的问题,我们的目标是只从中注释n个问题作为少量样本示例,通过构建新的示例集,其中包含推理步骤c和答案a。然后,我们使用E来提示测试数据并获得预测。在本节中,我们解释如何选择n个最不确定的问题并进行注释。
2.1 不确定性估计
为了从大量数据中选择一些问题,我们需要一种无监督的方法。以前的研究(Gentile等人,2022年)表明,减少模型的不确定性有助于提高模型的性能。因此,我们将LLMs的不确定性作为一个指标来选择数据。在链式思维设置中,我们首先将LLM前向传播k次,以获得每个问题的k个答案。然后,问题的不确定性可以通过不同的方式来衡量。在我们的工作中,我们考虑了以下四种可能的不确定性指标:
不一致性 首先,我们考虑使用k个生成答案之间的一致性来衡量不确定性。不一致性是通过计算预测中的唯一答案来计算的。实现很简单。我们首先通过集合操作计数唯一答案以移除重复项,得到h个唯一项A。然后,不一致性通过来计算。
熵 不确定性也可以通过熵来刻画,计算公式为
其中是某个预测答案在所有预测中的频率。较大的熵表示系统中的不确定性较大,较小的熵表示不确定性较小。因此,在复杂推理中,熵相对较大的问题将被选为候选。
方差 我们进一步考虑方差作为一种不确定性指标,我们假设这可能更适合算术答案。
其中,观察到预测答案之间存在巨大差异。一些预测答案是较小的数字(例如,1),而一些则是较大的数字(例如,10000)。为了减轻大数字的主导问题,我们建议通过问题中提到的所有数字来归一化预测。例如,给定一个问题“有人。每个人有个苹果。总共有多少苹果?”和一个预测答案,我们在归一化后得到。
我们首先进行了一个试点研究,发现不一致性、熵和方差基础的指标表现竞争性良好,显著优于自信度(详细信息见第5.1节)。因此,在我们的实验中,我们主要应用不一致性和熵作为我们的方法,这些方法易于实现。
2.2 选择和注释
在获得每个问题的不确定性后,我们可以根据每个问题的不确定性建立不确定性排名。然后,我们将选择不确定性最大的前n个问题进行注释。如果有超过n个问题具有最大的不确定性,我们将从它们中随机选择n个问题。这些n个问题将由人类注释者用推理链和答案进行注释,以构建新的示例。E将替换初始的,我们将使用它进行少量样本链式思维提示。
2.3 推理
有了新的注释示例E,我们在推理阶段用它们提示每个问题。此外,我们应用自我一致性(Wang等人,2022年)在一个温度T下对一个问题进行m次推理,然后选择最一致的答案。