论文翻译 | Active Prompting with Chain-of-Thought for Large Language Models 基于思维链的大型语言模型主动提示(下)

3 实验设置

        在本节中,我们将在以下三个小节中描述数据集和评估指标、基线模型和实现的细节。更多细节见附录A。

 3.1 数据集和评估指标

        遵循LLMs推理研究中的标准评估设置(Wei等人,2022b),我们的实验在三种类型的数据集上进行:GSM8K (Cobbe等人,2021)、ASDiv (Miao等人,2020)、SVAMP (Patel等人,2021)、AQuA (Ling等人,2017)、SingleEq (Koncel-Kedziorski等人,2016)、CSQA (Talmor等人,2019)、StrategyQA (Geva等人,2021) 以及最后一个字母拼接(Wei等人,2022b)。对于最后一个字母拼接,我们在分布外设置中进行测试,其中提示是两个字母,而测试问题是四个字母。这些数据集的统计数据报告在表6中。我们报告精确匹配准确率作为评估指标。

3.2 基线

        在我们的实验中,以下四种方法作为主要基线:思维链(CoT) (Wei等人,2022b)、自一致性(SC) (Wang等人,2022)、Auto-CoT (Zhang等人,2022b)和Random-CoT。Random-CoT与Active-Prompt共享相同的注释过程。

        唯一的区别是,它从训练数据中随机抽取问题进行注释,而不是应用我们提出的不确定性度量。我们的实验主要基于CodeX代码davincii -002 (Chen et al, 2021),原因有二。首先,它是我们进行实验时可用的最有能力的模型,与先前研究的观察结果一致(Wei et al ., 2022b;Wang et al ., 2022;苗等,2020)。其次,它在最初的有限测试期间是免费的。除了代码- davincii -002之外,我们还在主实验中对text- davincii -002、text- davincii -003和gpt-3.5-turbo进行了性能测试,验证了我们方法的有效性。我们从OpenAI的服务中调用api。

3.3 实现

        超参数 在我们的实现中,模型只能在推理之前访问训练数据 D = \left \{ X_{tr} ,Y_{tr}\right \},并在测试数据 D = \left \{ X_{te} ,Y_{te}\right \}上进行评估。我们应用的示例数量与Wei等人(2022b)相同,对于GSM8K、ASDiv、SVAMP和SingleEq是8个,对于CSQA是7个,对于StrategyQA是6个,对于AQuA和Letter(4)是4个。鉴于一些数据集(即ASDiv、SVAMP和SingleEq)只有测试分割,我们采用了GSM8K的注释结果并将其转移到这些数据集上进行推理。转移细节在表6中。在推理阶段,我们设置温度 T = 0.7,并对每个问题进行40次推理。然后我们取最一致的答案。除非特别指定,默认使用的gpt-3.5-turbo版本是gpt-3.5-turbo-0613。

        在这个阶段,我们从一些手工注释的示例开始,以帮助推断不确定性评估阶段的答案。这些带注释的范例直接取自Wei等人(2022b)。我们称之为稳定预测的几次提示技巧。然而,我们的方法并不依赖于少镜头提示,其他无示例的方法,如零镜头提示(Kojima等人,2022)也可以应用,我们在5.1节中证明了它的效果很好。在我们的实验中,我们将候选实例的大小限制为1,000。如果原始训练数据的大小大于1000,我们只从中随机抽取1000个实例,并在估计不确定性时考虑这样一个子集。

        如果大小小于1000,我们将使用完整的数据。我们进行了不同池大小的实验,发现1,000提供了健壮的性能,并且增加池大小的性能收益将收敛。对于我们主要实验中的所有数据集,K都设置为10。性能v.s. k的分析将在5.1节中讨论。结果表明,随着池大小的增加,性能继续提高,并在k = 10处收敛。对于不确定性度量,我们主要报告了基于分歧(Active-Prompt (D))和基于熵(Active-Prompt (E))的方法的性能。由于已经观察到StrategyQA通常与最大分歧联系在一起为2/2 = 1,因此我们也考虑了Active-Prompt (D)的频率。

        我们的方法需要对一些选定的问题进行人工注释。注释者是合著者之一,熟悉机器学习和思维链提示。由于我们的方法的重点是示例选择而不是注释,因此注释者没有进行试错,并且参考了之前的注释实践(Wei et al ., 2022b),进行了最小的人工工程。对于一个问题,注释者主要是写出推理步骤并给出真实答案。不同注释器的效果以及选择和注释的单独效果将在5.1节中讨论。

4 实验结果

        实验结果展示在表1中。总体来看,我们的模型以大幅度超过了所有基线模型。在八个基准数据集上,Active-Prompt (D) 相比于 self-consistency 分别使用 text-davinci-002 和 code-davinci-002 实现了平均7.0% 和 1.8% 的提升,取得了优越的结果。这证明了我们提出的主动选择方法的有效性。在本节中,我们将讨论算术推理、常识推理和符号推理的结果。

表1:Active-Prompt的整体性能。CoT和SC分别代表链式思维(Wei等人,2022b)和自我一致性(Wang等人,2022)方法。加粗表示最佳结果。a: Cobbe等人(2021),b: Lan等人(2022),c: Pi等人(2022),d: Amini等人(2019),e: Hu等人(2019),f: Xu等人(2021),g: Chowdhery等人(2022)。
CoT和SC的统计数据大多来自原论文,未报告的条目来源于DIVERSE(Li等人,2023)。w.o. SC表示结果未应用自我一致性,考虑到成本。

         算术推理:Active-Prompt 在与所有基线模型的比较中取得了最佳性能,表明了我们方法的优势。与竞争基线 self-consistency 相比,Active-Prompt (D) 使用 code-davinci-002 平均提升了2.1%。在使用 text-davinci-002 时,Active-Prompt (D) 相比于 self-consistency 的提升更大,达到了7.2%。我们注意到,使用 code-davinci-002 时,最大的提升出现在 GSM8K (4.2%) 和 AQuA (3.1%) 数据集上。一个可能的原因是这两个数据集不需要 CoT 提示的可迁移性,因为我们可以直接从它们自己的训练集中选择和注释问题。

        但是ASDiv, SVAMP和SingleEq没有训练数据,所以我们需要将标注的CoT从GSM8K传递给他们。这表明如何更好地将提示从一个任务转移到另一个任务被认为是未来重要的研究方向。

        常识和符号推理:在常识推理和符号推理任务中观察到一致的改进。ActivePrompt在这三个任务中的自一致性优于其他任务。请注意,我们在Letter(4)上测试了分布外设置,这更具挑战性,与所有基线模型相比,Active-Prompt仍然达到了最佳性能。

5 分析

        在本节中,我们进一步进行了几个额外的实验,以揭示少量提示、主动选择、不同注释器、不确定性度量、池大小和提示工程的影响。最后,我们分析了不确定度和准确度之间的关系,希望对我们的方法如何工作提供更多的解释。

5.1 消融研究

        在本节中,我们将揭示我们提出的模型设计中各个模块的影响。首先,我们通过去除一些样本的依赖性来报告零样本设置下的性能,然后探索我们提出的主动样本选择策略的贡献。此外,我们还探讨了不同注释器、不同不确定性度量和池大小的影响。为了验证他们的贡献,我们一个接一个地删除它们,并评估三个下游任务:GSM8K, ASDiv和SingleEq。结果如表2所示。

表2:对三个算术推理任务、CSQA和Letter (4) 进行消融研究。Zero-Shot-Active-Prompt表示在不确定性估计过程中移除了对少量样本CoTs的依赖。Anno. (A) 和 Anno. (B) 是两个不同的注释者。(D), (E), 和 (V) 分别代表不一致性、熵和方差。加粗表示每个数据集中的最佳结果。GSM8K、ASDiv、SingEq的结果是通过code-davinci-002获得的,而CSQA和Letter (4)的结果是通过text-davinci-002获得的。

        Effects of Few-Shot Prompts 在我们的主要实验中,我们从4-8个手动注释的示例开始,以帮助在不确定性估计阶段推断答案,并展示我们方法的有效性。这些注释示例直接来自Wei等人(2022b)。然而,我们的方法独立于提供的示例。在本节中,我们假设没有这些示例的访问权限,进行了进一步的实验。受到最近Zero-Shot-CoT(Kojima等人,2022)研究的启发,我们发现可以绕过编写初始示例的手动工作。不是使用4-8个人编写的示例来生成k个预测,我们简单地添加“让我们一步一步思考。”,让LLMs生成推理步骤和最终答案。结果如表2中的Zero-Shot-Active-Prompt所示,其表现与Active-Prompt相竞争,表明我们的方法不一定依赖于少量示例。
        Active Selection的效果我们的主要贡献是提出了一个有效的示例选择策略(即主动选择)。我们通过随机选择相同数量的题目进行注释来替换主动选择,这个模型称为Random-CoT。结果如表2所示。观察到Active-Prompt在显著优势上超过了Random-CoT。Random-CoT的表现仅与另一个基线模型自我一致性相当,说明我们应用的注释过程没有优势,正是主动选择策略导致了性能提升。例如,在GSM8K数据集上,Random-CoT(78.6)略微优于SC(78.0),而显著低于Active-Prompt(82.2),差距为3.6%。所有数据集上Random-CoT的完整结果如表1所示,与Active-Prompt相比,性能一致下降。
        注释者的影响 在我们的主要实验中,我们要求注释者不做最小化人工工程的试错,因为我们的方法重点是问题选择,而不是最佳可能的注释。然而,不同的注释者仍然可能引起性能的变化。在本节中,我们讨论不同注释者的影响。除了注释者A之外,我们还直接使用GSM8K数据集(注释者B)的人类注释的理由。结果报告在表2中。注释者A和B的结果一致优于基线模型,证明了我们提出的选择方法的鲁棒性。令人惊讶的是,我们发现直接应用GSM8K提供的解决方案优于我们注释的理由,这表明GSM8K的现有注释质量很高。此外,我们注意到,人类提示工程有两个互补的组成部分:问题选择和提示模板工程。本文提出的方法为第一个问题提供了一个很好的解决方案。也有可能将这种技术与人类优化的提示模板结合起来,以进一步提高性能。
        不确定性指标的影响 在我们的主要实验中,我们采用不一致性和熵作为不确定性指标。除了这些,还可以引入其他不确定性指标。在本节中,我们主要讨论四个不确定性指标:不一致性、熵、方差和自我信心。前三个指标的定义在2.1节中说明,自我信心的定义可以在附录D中找到。首先,我们发现不一致性不适用于搜索空间有限的数据集。例如,StrategyQA只有两个标签(是或否),预测结果往往在最大不一致性2/2=1时持平。因此,我们采用熵作为StrategyQA的不确定性指标。其次,基于自我信心的方法表现不佳,因此我们没有进行更多的实验。我们在表8中展示了其预测的一个例子。我们推测这是因为GPT-3倾向于过度自信,这与之前的观察结果一致(Si等人,2022)。引入一个外部良好训练的判别器来评估信心是一种实际的方法,我们将其留作未来的工作。最后,不一致性、熵和方差方法的比较显示在表2中。结果表明,它们在ASDiv和SingleEq上表现相当好,而在GSM8K中,不一致性和熵优于方差。因此,我们在主要实验中简单地选择不一致性和熵作为主要指标。
        池大小的影响 在不确定性估计的第一步中,我们为每个输入问题生成k个答案,以构建一个预测池。这里,k影响不确定性估计的性能,进而影响下游任务的性能。为了显示预测答案数量的影响,我们在图2中绘制了基于text-davinci-003的准确性与不同预测答案数量(1、5、10、15)的关系。结果显示,随着池大小的增加,性能继续提高,并在k约为10时趋于收敛。直观上,一个小的k可能会混淆选择过程,导致持平,而一个大的k将导致更准确的不确定性估计,从而提高性能。

5.2 不确定性分析

         我们提出方法的动机是减少模型的不确定性,以帮助激发LLMs的推理能力,从而进一步提高少量样本提示的性能。在本节中,我们展示了不确定性与准确率之间的关系。在附录A的图3中,我们报告了GSM8K、ASDiv和SingleEq上的不确定性量和准确率。我们观察到不确定性与准确率之间存在高度负相关。随着不确定性的减少,准确率增加,这表明减少模型的不确定性确实有助于提高基于少量样本提示的预测性能。

5.3 可转移性

        在解决所选范例中的不确定性是否在不同模型中是一致的,或者它是否源于特定任务本身的问题时,进行了一个额外的实验。实验包括使用代码- davincii -002模型选择样本,然后使用文本- davincii -002和文本- davincii -003模型进行推理。潜在的假设是,如果不确定性是任务固有的,那么由ActivePrompt标识的范例将在模型之间表现出可转移性。换句话说,一个模型识别的活动范例在转移到其他模型时是适用的和有效的。从表3的结果中可以观察到,所有三种基于选择的方法都有效地执行。所选择的不确定案例与任务相关,可以转移到不同的模型中。结果表明,不确定性来源于任务,活动提示识别的范例具有良好的可移植性。该实验的结果提供了对模型预测中不确定性的本质及其潜在来源的见解。

5.4 弱模型的性能

        我们的主要实验是基于强大的GPT系列模型进行的。人们可能会对较弱/较小模型的表现感到好奇,例如,Llama系列模型(Touvron等人,2023a,b)。在本节中,我们研究了Active-Prompt在Llama-2模型上的有效性,结果如表4所示。观察到我们提出的Active-Prompt大幅超过了CoT,这表明这种方法对于较弱模型仍然有效。请注意,在我们的所有实验中,我们使用的是经过指令调整的Llama2-70b版本(即Llama2-70b-chat),因为它能够理解复杂的链式思维提示并遵循人类的指令。

5.5 GPT和Llama之间的可移植性 

        我们还研究了GPT模型和Llama模型之间的可移植性。由于较小的Llama模型在推理任务上表现不佳,我们使用Llama2-70b-chat进行实验。我们进行了两种实验:(1)通过gpt3.5-turbo选择问题并通过Llama2-70b-chat进行推断(gpt-3.5turbo Ñ Llama2-70b-chat)和(2)通过Llama2-70b-chat进行选择问题并通过gpt-3.5-turbo进行推断(Llama2-70b-chat Ñ gpt-3.5-turbo)。请注意,我们使用的是0613版本的gpt-3.5涡轮增压。结果如表5所示。箭头前面的模型表示主动选择问题的模型,箭头后面的模型表示推理模型。结果表明,用一个模型选择问题,然后将选择的问题应用到另一个模型是可行的。此外,选择具有较大模型的问题并将其应用于较小的模型可以获得更好的性能。 

6 相关工作

6.1 思维链提示 

        链式思维提示能够激发大型语言模型的推理能力。Wei等人(2022b)提出的原始想法是将推理步骤丰富到少量样本中,这大大提高了在复杂任务上的性能。遵循Wei等人(2022b)的研究,许多研究在标准CoT方面进行了改进,包括自一致性(Wang等人,2022)、从最少到最多的提示(Zhou等人,2022)、动态从最少到最多的提示(Drozdov等人,2022)、引导(Zelikman等人,2022)、自训练(Huang等人,2022)、验证器(Li等人,2022;Xu等人,2024)、提示增强和选择(Shum等人,2023)、元启发式方法(Pan等人,2023)和元图提示(Pan等人,2024)。这些研究在复杂任务上基于CoT大幅提高了性能,但它们局限于一个固定的样本集。与之相比,我们提出注释对任务最关键的问题以实现轻松适应。Auto-CoT(Zhang等人,2022b)根据多样性的不同对测试问题进行聚类,并使用零样本提示来回答问题。与我们的方法不同,它需要遍历测试数据集,我们的实验显示我们的性能优于Auto-CoT。请注意,多样性和不确定性对于选择最有信息价值的问题都是有用的,并且它们是互补的。我们考虑将多样性和不确定性的结合作为未来的研究方向。

 6.2 主动学习

        我们的研究也与主动学习相关(Cohn et al, 1996;奥尔森,2009;落定,2009;Rotman and Reichart, 2022;Lin et al ., 2023),其目的是通过寻找最有用的未标记数据,以合理的预算进行标注,从而提高数据标注效率。近期研究(Schröder et al, 2022;Köksal等人,2022)展示了基于主动学习的方法对分类任务的大型语言模型进行微调的好处。在此之后,我们将最大熵(Roy and McCallum, 2001)和最小置信度(Culotta and McCallum, 2005)算法纳入上下文学习场景,并验证了思维链提示的有效性,特别是对于复杂的推理任务。 

7 结论 

        在本文中,我们提出了Active-Prompt来激发大型语言模型(LLMs)的推理能力。受到注释推理步骤以获得有效样本的启发,我们的目标是谨慎地选择最有帮助的问题进行注释,而不是任意选择。为此,我们提出了一种基于不确定性的主动选择策略,以确定从任务特定问题的池中哪些问题是最重要和最有帮助的进行注释。我们为Active-Prompt引入了四种不同的不确定性估计策略:不一致性、熵、方差和自我置信。这四种策略从不同的角度刻画不确定性,我们主要应用不一致性和熵。实证研究表明,Active-Prompt在用于算术推理、常识推理和符号推理的八个广泛使用的数据集上取得了令人鼓舞的性能。对不同不确定性指标、注释器、池大小、零样本学习以及准确性与不确定性关系的进一步分析证明了我们方法的有效性。
 

 


 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值