论文翻译 | SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHTREASONING IN LANGUAGE MODELS 自洽性提高了语言模型的思维链推理能力(下）_self-consistency improves chain of thought reasoni-CSDN博客

本文链接：https://blog.csdn.net/m0_49651195/article/details/142571407

3 实验

我们进行了一系列实验，在一系列推理基准上比较了所提出的自一致性方法与现有方法。我们发现自一致性大大提高了所考虑的每个语言模型的推理精度，跨越了广泛的模型尺度。

3.1 实验设置

任务和数据集。我们在以下推理基准上评估自一致性。3•算术推理。对于这些任务，我们使用了Math Word Problem Repository (KoncelKedziorski等人，2016)，包括AddSub (Hosseini等人，2014)、MultiArith (Roy & Roth, 2015)和ASDiv (Miao等人，2020)。我们还纳入了AQUA-RAT (Ling等人，2017)，这是最近发布的小学数学问题基准(GSM8K;Cobbe等人，2021)，以及数学单词问题的挑战数据集(SVAMP;Patel et al, 2021)。

常识性推理。对于这些任务，我们使用了CommonsenseQA (Talmor等人，2019)、StrategyQA (Geva等人，2021)和AI2 Reasoning Challenge (ARC) (Clark等人，2018)。
符号推理。我们评估了两个符号推理任务:来自Wei等人(2022)的最后一个字母连接(例如，输入是“Elon Musk”，输出应该是“nk”)和硬币翻转(例如，硬币是正面朝上的，投掷几次后硬币仍然是正面朝上的吗?)。

        语言模型和提示。我们评估了四种不同尺度的基于变压器的语言模型的自一致性:•UL2 (Tay等人，2022)是一种基于200亿个参数的去噪器混合训练的编码器-解码器模型。UL2是完全开源的，在零射SuperGLUE上具有与GPT-3相似或更好的性能，只有20B个参数，因此更适合计算;•GPT-3 (Brown et al, 2020)具有1750亿个参数。我们使用来自Codex系列的两个公共引擎代码-davinci001和代码- davinci002 (Chen等人，2021)来帮助再现性;5•LaMDA-137B (Thoppilan等人，2022)是一个密集的从左到右，仅解码的语言模型，具有1370亿个参数，在网络文档，对话数据和维基百科的混合上进行预训练;•PaLM-540B (Chowdhery等人，2022)是一个密集的从左到右，仅解码器的语言模型，具有5400亿个参数，在高质量的7800亿个令牌语料库上进行预训练，其中包含过滤的网页，书籍，维基百科，新闻文章，源代码和社交媒体对话。
        我们在少样本设置中执行所有实验，没有训练或微调语言模型。为了公平比较，我们使用与Wei等人(2022)相同的提示:对于所有算术推理任务，我们使用相同的8个手动编写的示例;对于每个常识性推理任务，从训练集中随机选择4-7个示例，并使用手动组成的思维链提示关于使用的提示符的详细信息见附录A.3。
        抽样方案。为了对不同的推理路径进行采样，我们遵循了与Radford等人(2019)建议的设置相似的设置;Holtzman et al(2020)用于开放文本生成。特别是，对于UL2-20B和LaMDA-137B，我们应用T = 0:5的温度采样，并以最高的概率在top-k (k = 40)标记处截断，对于PaLM-540B，我们应用T = 0:7;k = 40，对于GPT-3，我们使用T = 0:7，没有top-k截断。我们在第3.5节中提供了一个消融研究，以表明自一致性通常对采样策略和参数具有鲁棒性。

3.2 主要结果

我们报告了自一致性的结果，平均超过10次运行，其中我们在每次运行中采样40个独立于解码器的输出。我们比较的基线是带有贪婪解码的思维链提示(Wei et al .， 2022)，称为cot提示，之前已用于大型语言模型的解码(Chowdhery et al .， 2022)。

结果如表2所示。自一致性在所有四种语言模型上都比思维链提示显著提高了算术推理性能。更令人惊讶的是，当语言模型的规模增加时，收益变得更加显著，例如，我们看到UL2-20B的绝对准确度提高了3%-6%，而LaMDA137B和GPT-3的绝对准确度提高了9%-23%。对于已经在大多数任务上实现高精度的大型模型(例如，GPT-3和PaLM-540B)，自一致性仍然可以在AQuA和GSM8K等任务上提供+12%-18%的绝对精度，在SVAMP和ASDiv上提供+7%-11%的绝对精度。通过自我一致性，我们几乎在所有任务上都获得了最新的结果:尽管自我一致性是无监督的和任务不可知的，但这些结果与需要特定任务训练或使用数千个示例进行微调的现有方法(例如，在GSM8K上)相比是有利的。

表2:与思维链提示相比，自洽的算术推理精度(Wei et al .， 2022)。之前的SoTA基线来自:a:相关性和LCA操作分类器(Roy & Roth, 2015)， b: Lan等人(2021)，c: Amini等人(2019)，d: Pi等人(2022)，e: GPT-3-175B微调与7.5k个例子(Cobbe等人，2021)，g: GPT-3-175B微调加上额外的175B验证器(Cobbe等人，2021)。每个任务的最佳性能以粗体显示。

表3:与思维链提示相比，自一致性的常识和符号推理准确性(Wei et al .， 2022)。以前的SoTA基线来自:a: DeBERTaV3-large + KEAR (Xu et al, 2021b)， b: Chowdhery等(2022)，c: UnifiedQA-FT (Khashabi et al, 2020)。每个任务的最佳性能以粗体显示。

表3显示了常识和符号推理任务的结果。类似地，自一致性在所有四种语言模型中都产生了很大的收益，并在6个任务中的5个中获得了SoTA结果。对于符号推理，我们测试了分布外(OOD)设置，其中输入提示包含2个字母或2次投掷的示例，但我们测试了4个字母和4次投掷的示例(这种设置更具挑战性，因为PaLM-540B或GPT-3已经可以达到完美的分布内精度)。在这种具有挑战性的OOD设置中，与具有足够模型大小的cot提示相比，自一致性的增益仍然相当显著。
为了显示抽样推理路径数量的影响，我们在图2中绘制了相对于不同数量的抽样路径(1、5、10、20、40)的精度(超过10次运行的平均值和标准差)。结果表明，采样更多的推理路径(例如，40)会导致一致性更好的性能，进一步强调了在推理路径中引入多样性的重要性。在表4中，我们用来自两个任务的几个示例问题展示了自一致性与贪婪解码相比产生更丰富的推理路径集。

图2:在lambda - 137b上，自一致性(蓝色)在算术和常识性推理任务上显著提高了具有贪婪解码(橙色)的cot提示的准确性。对更多的不同推理路径进行采样，可以持续提高推理的准确性。

表4:在PaLM-540B上，自一致性帮助修复贪心解码错误的示例。给出了与基本真理一致的两条抽样推理路径。

3.3 当思维链影响绩效时，自我一致性是有帮助的

Ye和Durrett(2022)表明，在少样本学习中，与标准提示相比，有时思维链提示可能会损害表现。在这里，我们使用自一致性进行了一项研究，看看它是否可以帮助填补空白，通过一组常见的NLP任务，包括:(1)闭卷问答:BoolQ (Clark等人，2019)，HotpotQA (Yang等人，2018)，以及(2)自然语言推理:e-SNLI (Camburu等人，2018)，ANLI (Nie等人，2020)和RTE (Dagan等人，2005;Bar-Haim et al, 2006;Giampiccolo et al .， 2007;Bentivogli et al, 2009)。
在PaLM-540B上的结果如表5所示。对于某些任务(例如，ANLI-R1, e-SNLI, RTE)，与标准提示相比，添加思维链确实会损害性能(Brown等人，2020)，但自一致性能够显著提高性能并优于标准提示，使其成为在常见NLP任务的少量上下文学习中添加基本原理的可靠方法。

表5:在常见的NLP任务中比较标准/CoT提示与自一致性。

3.4 与其他现有方法的比较

我们进行了一系列额外的研究，并表明自一致性显著优于现有的方法，包括样本和秩、束搜索和基于集成的方法。
提高生成质量的一种常用方法是Sample-and-Rank，即从解码器中采样多个序列，然后根据每个序列的对数概率进行排序(Adiwardana et al, 2020)。我们通过从解码器中采样相同数量的序列作为自一致性，并从排名最高的序列中取最终答案，比较了GPT-3编码davincii -001上的自一致性与样本和排名。结果如图3所示。虽然sample-and-rank确实可以通过额外的采样序列和排序来提高准确性，但与自一致性相比，增益要小得多。

图3:当样本数量相同时，自一致性显著优于sample-and-rank。

在表6中，我们比较了UL2-20B模型上的自一致性和波束搜索解码。为了公平比较，我们报告了相同数量的梁和推理路径下的精度。在这两项任务中，自一致性都明显优于波束搜索。注意自一致性也可以采用波束搜索对每条推理路径进行解码(结果如“使用波束搜索的自一致性”所示)，但其性能较抽样自一致性差。原因是波束搜索在输出中产生较低的多样性(Li & Jurafsky, 2016)，而在自一致性中，推理路径的多样性是获得更好性能的关键。

表6 UL2-20B型号上自一致性与波束搜索解码的比较。

与基于集成的方法的比较我们进一步比较了基于自一致性的方法和基于集成的方法进行少镜头学习。特别地，我们通过:(1)提示顺序排列来考虑集成:我们将提示中的样本随机排列40次，以降低模型对提示顺序的敏感性(Zhao et al .， 2021;Lu et al .， 2021);(2)多组提示(Gao et al, 2021):我们手动编写3组不同的提示。在这两种方法中，我们将贪婪解码的大多数答案作为一个集合。表7显示了与自一致性相比，现有的基于集成的方法获得的收益要小得多此外，请注意，自一致性与典型的模型集成方法不同，在模型集成方法中，多个模型被训练并且它们的输出被聚合。自一致性更像是在单一语言模型之上的“自集成”。我们还在附录A.1.3中展示了集成多个模型的结果，其中模型集成的性能比自一致性差得多。

表7:自一致性优于LaMDA-137B上的提示顺序和多提示集成。

3.5 其他研究

我们进行了一些额外的实验来分析自一致性方法的不同方面，包括其对采样策略和参数的鲁棒性，以及它如何在不完善的提示和非自然语言推理路径下工作。
我们通过改变温度采样中的T来证明自一致性对采样策略和参数具有鲁棒性(Ackley等人，1985;Ficler & Goldberg, 2017)， k在top-k抽样(Fan et al, 2018;Holtzman et al, 2018;Radford等人，2019)，以及图4(左)PaLM-540B上的核采样p (Holtzman等人，2020)。图4(右)显示，自一致性显著提高了LaMDA-137B模型系列在所有尺度上的性能。对于较小的模型，增益相对较低，因为只有当模型达到足够的规模时才会出现某些能力(例如算术)(Brown et al, 2020)。

图4:GSM8K精度。(左)自一致性对各种采样策略和参数具有鲁棒性。(右)自一致性提高了跨语言模型尺度的性能。

对于使用手动构造的提示进行的少样本学习，人工注释者在创建提示时有时会犯一些小错误。我们进一步研究了自一致性是否有助于提高语言模型对不完善提示的鲁棒性我们在表8中显示了结果:虽然不完美的提示降低了贪婪解码的准确性(17.1 !14.9)，自一致性可以填补空白，有力地改善结果。

表8:GSM8K的不完善提示、方程提示和零样本思维链下的自洽情况。

此外，我们发现一致性(就与最终聚合答案一致的解码百分比而言)与准确性高度相关(图5，在GSM8K上)。这表明，可以使用自一致性在其生成的解决方案中提供模型的不确定性估计。换句话说，可以使用低一致性作为模型置信度低的指标;也就是说，自一致性赋予模型“知道什么时候它不知道”的能力。

图5:一致性与模型的准确性相关。

我们还测试了自洽概念对替代形式的中间推理的通用性，如方程(例如，“停车场里已经有3辆车了”)。又来了两个。现在有3 + 2 = 5辆车。到“3 + 2 = 5”)。结果如表8(“方程提示”)所示:自一致性仍然通过生成中间方程来提高准确性;然而，与生成自然语言推理路径相比，增益较小，因为方程要短得多，并且在解码过程中产生多样性的机会更少。此外，我们用零射击思维链(Kojima et al .， 2022)测试了自一致性，并在表8中表明自一致性也适用于零射击CoT，并显著提高了结果(+26.2%)。

4 相关工作

        语言模型中的推理。众所周知，语言模型在第2类任务中会遇到困难，比如算术、逻辑和常识推理(Evans, 2010)。以前的工作主要集中在改进推理的专门方法上(Andor等人，2019;Ran等，2019;geeva等，2020;Pi等人，2021)。与之前的工作相比，自一致性适用于广泛的推理任务，无需任何额外的监督或微调，同时仍然大大提高了Wei等人(2022)提出的思维链提示方法的性能。
        语言模型中的抽样和重新排序。文献中提出了语言模型的多种解码策略，例如温度采样(Ackley et al, 1985;Ficler & Goldberg, 2017)， top-k抽样(Fan et al, 2018;Holtzman et al, 2018;Radford等人，2019)，核采样(Holtzman等人，2020)，最小贝叶斯风险解码(Eikema & Aziz, 2020;Shi et al .， 2022)和典型解码(Meister et al .， 2022)。其他研究试图明确促进解码过程中的多样性(Batra等人，2012;Li et al .， 2016;Vijayakumar等人，2018)。
        重新排序是提高语言模型生成质量的另一种常见方法(Adiwardana等人，2020;沈等人，2021)。Thoppilan等人(2022)收集了额外的人类注释来训练响应过滤的重新排序器。Cobbe等人(2021)训练了一个“验证者”来重新排列生成的解决方案，与仅仅微调语言模型相比，这大大提高了数学任务的解决率。Elazar等人(2021)通过增加一致性损失来扩展预训练，从而提高了事实知识提取的一致性。所有这些方法都需要训练额外的重新排序员或收集额外的人工注释，而自一致性不需要额外的训练、微调或额外的数据收集。
        提取推理路径。之前的一些工作已经考虑了用于识别推理路径的特定任务方法，例如构建语义图(Xu等人，2021a)，学习RNN以检索维基百科图上的推理路径(Asai等人，2020)，在数学问题上使用人类注释的推理路径进行微调(Cobbe等人，2021)，或者使用基于启发式的伪推理路径训练提取器(Chen等人，2019)。最近，人们已经注意到多样性在推理过程中的重要性，但只能通过特定任务的训练来利用，要么通过在提取的推理路径上使用额外的QA模型(Chen等人，2019)，要么通过在常识知识图中引入潜在变量(Yu等人，2022)。与这些方法相比，自我一致性要简单得多，不需要额外的训练。我们提出的方法简单地将推理路径的生成和最终答案结合起来，通过从解码器中采样，使用聚合来恢复最一致的答案，而不需要额外的模块。
        语言模型的一致性。先前的一些研究表明，语言模型在会话中可能存在不一致(Adiwardana等人，2020)、解释生成(Camburu等人，2020)和事实知识提取(Elazar等人，2021)。Welleck等人(2020)使用“一致性”来指在循环语言模型中生成无限长序列。Nye等人(2021)通过添加受System 2启发的逻辑推理模块，提高了来自System 1模型样本的逻辑一致性。在本文中，我们关注一个稍微不同的“一致性”概念，即利用不同推理路径之间的答案一致性来提高准确性。

5 结论与讨论

我们引入了一种简单而有效的方法，称为自一致性，并观察到它在四个不同尺度的大型语言模型中显著提高了一系列算术和常识性推理任务的准确性。除了提高准确性之外，自一致性还有助于在使用语言模型执行推理任务时收集基本原理，以及提供不确定性估计和改进的语言模型输出校准。
自一致性的一个限制是它会产生更多的计算成本。在实践中，人们可以尝试少量路径(例如5条或10条)作为起点，在不产生太多成本的情况下实现大部分收益，因为在大多数情况下，性能很快饱和(图2)。作为未来工作的一部分，可以使用自一致性来生成更好的监督数据来微调模型，这样模型可以在微调后的单次推理中给出更准确的预测。此外，我们观察到语言模型有时会生成不正确或无意义的推理路径(例如，表4中的StrategyQA示例，两个总体数字并不完全正确)，需要进一步的工作来更好地建立模型的基本原理生成。