arxiv 2023| 思维链推理研究综述：进展、前沿与未来

Blue琰琰

已于 2023-11-14 15:04:51 修改

阅读量2.9k

点赞数 25

分类专栏：论文阅读笔记思维链推理文章标签：论文笔记论文阅读

于 2023-11-01 19:09:25 首次发布

本文链接：https://blog.csdn.net/m0_43420345/article/details/134135856

版权

论文阅读笔记同时被 2 个专栏收录

6 篇文章

订阅专栏

思维链推理

1 篇文章

订阅专栏

本文是对《A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future》一文的总结，如有侵权即刻删除。
因为博主的研究领域不是思维链推理，阅读这篇文章的主要结构用于组会汇报，所以阅读的比较粗略。

1 文章信息

论文《A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future》于2023年在arxiv上公开。
作者团队分别来自于哈尔滨工业大学和华为股份有限公司
文章基于思维链推理，探讨了该研究的进展、前沿与未来。

2 摘要

思维链推理是人类智能的一个基本认知过程，在人工智能和自然语言处理领域引起了极大的关注。然而，目前还缺乏对这一领域的全面调查。为此，我们迈出了第一步，对这一研究领域进行了仔细而广泛的全面调查。我们用X-of-Thought来指广义上的思维链。详细地，我们根据方法的分类系统地组织了目前的研究，包括XoT构造、XoT结构变体和增强XoT。此外，我们还描述了XoT的前沿应用，包括计划、工具使用和蒸馏。此外，我们解决了挑战，并讨论了一些未来的方向，包括忠实，多模态和理论。我们希望这项调查能够为寻求在思维链推理领域进行创新的研究人员提供宝贵的资源。

2.1 博主思考

该文是思维链推理领域的综述类文章，文章结构主要为：当前研究；前沿应用；未来方向。
在这里插入图片描述

3 介绍

预训练的语言模型（PLM）可以自动从未标记的文本中学习通用表示，并通过下游任务的微调来实现出色的性能。最近，扩展语言模型显着提高了性能并带来了许多惊喜。因此，自然语言处理的范式正在从微调预训练转向上下文学习预训练。然而，截至目前，大规模语言模型（LLM）在复杂推理任务上仍有相当大的改进空间。

注意到，为了区别于原始的CoT，我们用XoT（X-of-Thought）来指代广义的CoT（Chain-of-Thought），它是使用分步推理方法的统称。然而，这些方法和数据集还没有经过系统的回顾和分析。为了填补这一空白，我们提出这项工作，对XoT家族进行全面细致的分析。尽管已经有一些关于思维链的调查，但它们仅限于特定方面。相比之下，我们的调查不仅对他们已经涵盖的主题进行了更深入和全面的讨论，而且还包括了额外的主题和讨论，如XoT构建、XoT结构变体和前沿应用等。

3.1 博主思考

该节介绍了思维链推理的提出、概念和文章结构。
提出：为了利用LLM解决复杂的推理任务，思维链推理被提出。
概念：XoT指代广义的CoT，是使用分步推理方法的统称
文章结构：背景和预备知识；基准模型；XoT的分类和分析；前沿应用；未来的方向；现有方法的比较和讨论

4 背景和预备知识

博主的研究领域不是思维链推理，所以这一节略过了。

5 基准模型

关于推理的基准和任务的概述。
在这里插入图片描述

5.1 数学推理

数学推理常被用来衡量一个模型的推理能力。

5.2 常识推理

常识性推理是基于日常世界中普遍已知和普遍感知的知识进行推理、判断和理解的过程。如何获取和理解常识性知识是模型面临常识推理的主要障碍。

5.3 符号推理

这里的符号推理特指一些简单操作的模拟，这些操作对人类来说很简单，但对LLMs来说却很有挑战性。最后一个字母串接、硬币翻转和反向列表是最常用的符号推理任务。

5.4 逻辑推理

逻辑推理分为演绎推理、归纳推理、溯因推理。演绎推理的结论来源于一般前提。归纳推理是从特殊情况中推导出一般性结论。溯因推理对观察到的现象给出了理性的解释。

5.5 多模态推理

在现实世界中，推理也涉及文本以外的模态信息，其中视觉模态是最普遍的。为此，许多视觉多模态推理的基准被提出。视频多模态推理与视觉多模态推理相比，它引入了额外的时间信息，因此更具挑战性。

5.6 指标

5.6.1 准确度

准确率用于评估模型在分类任务上的能力，通常用于多选和是/否任务。
在这里插入图片描述

5.6.2 EM and F1

EM和F1是用于评价自由形式和跨度提取任务的度量指标。两者都是在token层面进行计算。
在这里插入图片描述

其中，P和R分别表示精确率和召回率，EM计算预测和回答完全相同的比例。

6 方法

在本节中，我们通过三种不同的分类来探讨XoT：XoT的构造( § 61 )、XoT的结构变体( § 6.2 )和XoT的增强方法( § 6.3 )。

6.1 构造方法

经过深入分析，我们将XoT的构建分为三类：1 )手动XoT，2 )自动XoT，3 )半自动XoT，具体描述如下。

6.1.1 手动XoT

虽然大型语言模型通过提示在上下文学习中执行小样本，但它们在推理任务中仍然受到限制。为了发掘大型语言模型的潜在推理能力，一个标准的做法是在演示中提供不同的思维形式。
人工构造的XoT方法通过在演示文稿中添加不同类型的分步式中间推理过程，在语境学习上进行扩展。它们允许LLM模仿并生成推理路径。虽然人工XoT方法为人类理解提供了更高的可解释性和可信性，并且在复杂任务上(例如，数学推理，常识推理，符号推理等)表现出更好的性能，但人工标注理论基础需要花费大量的成本，并且存在诸如示范选择困难和任务泛化困难等缺点。具体来说，不同的任务需要不同的演示方式。因此，其他工作尝试自动构建推理路径，如§ 6.1.2所述。

6.1.2 自动XoT

与手动XoT不同，自动XoT使用零样本提示工程或采样，具有可扩展性，可以在没有人工干预的情况下在不同领域之间进行推广。然而，由于缺乏人类干预，自动生成的思维链遇到了诸如质量差、幻觉和事实不一致等挑战。因此，需要采用半自动的方式构建XoT，如§ 6.1.3所述。

6.1.3 半自动XoT

半自动XoT方法综合了人工和自动构建方法的优点。
半自动XoT方法在引入人体对齐信号和演示选择策略以增强推理能力和稳定性的同时，减少了人工标注的工作量。此外，它还可以实现具有成本效益的领域泛化。然而，示范选择问题并没有得到彻底解决，需要付出更多的努力和研究。

6.2 XoT的结构变体

最原始的思维链是一种链式结构，它描述了自然语言中的中间推理步骤。在这一部分中，我们介绍了修改原始链结构的结构变体，包括链结构变体、树结构变体和图结构变体。
在这里插入图片描述

6.2.1 链状结构

6.2.2 树结构

原始的链式结构内在地限制了探索的范围。通过树结构和树搜索算法的结合，模型在推理过程中获得了高效探索和回溯的能力。结合中间思想的自我评估，模型可以获得全局最优解。ToT的推理过程涉及不确定性，可能导致级联错误。

6.2.3 图结构

与树相比，图引入了loops和rings，这带来了更复杂的拓扑关系，并允许建模更复杂的推理。GoT 将中间思想视为图中的节点，结合了探索和回溯操作，并且相比于思想树额外引入了聚合和求精操作。附加的操作、聚合和精化在复杂的情况下可以得到更好的推理任务。尽管如此，它也面临着与思想之树相同的困境，即任务局限性和可推广性差。此外，它还增加了推理成本。
随着模型从线性链过渡到层次树和复杂图，思想之间的相互作用变得越来越复杂，从而逐渐增强了解决复杂问题的能力。然而，随着拓扑结构复杂性的增加，关联方法对任务选择施加了更多的约束，导致其可推广性和可制造性显著降低。

6.3 XoT的增强方法

在这一部分，我们介绍了XoT增强方法。总的来说，我们将提供五个类别的概述，它们是增加验证和改进( § 6.3.1 )，问题分解( § 6.3.2 )，利用外部知识( § 6.3.3 )，投票和排名( § 6.3.4 )和提高效率( § 6.3.5 )。

6.3.1 验证和改进

思维链推理往往具有幻觉性，产生错误的推理步骤。中间推理步骤中的错误反过来可以触发一系列错误。结合验证获得反馈，并在此反馈的基础上提炼推理过程即可成为缓解这一现象的一种非常有效的策略，这类似于人类的反思过程。图3描述了验证和精化的概况。
在这里插入图片描述
LLM推理是一个无监督的过程，在这个过程中，来自中间推理步骤的反馈信号对提高推理起着至关重要的作用。来自反馈信号的引导可以有效地减少推理中的幻觉现象。如何获得恰当的反馈并根据反馈做出准确的修正仍有很大的研究空间。

6.3.2 问题分解

XoT推理的本质在于其循序渐进的问题解决。然而，原始的思维链推理方法并没有明确地剥离出分步推理过程，仍然采用一阶段生成。在这一部分中，我们讨论了问题分解的方法，这种方法显式地分步求解问题。概述如图4所示。
在这里插入图片描述
为复杂的问题提供直接的答案可能具有挑战性。通过将问题分解为简单的子问题，分步求解，降低了难度。而且，每个子问题都可以追溯到特定的推理步骤，使得推理过程更加透明和可解释。目前的工作多采用自顶向下的分解策略，而基于反向推理的自底向上的分解策略还有待在未来的工作中探索。

6.3.3 外部知识

模型内部的参数化知识是有限的、过时的。因此，在面对知识密集型任务时，经常会出现事实错误。引入外部知识可以缓解这一现象，如图5所示。
在这里插入图片描述
模型中的参数化知识固定在预训练的最后，导致其在知识容量和知识更新方面存在不足。虽然引入外部知识可以在一定程度上缓解这一问题，但这仍然是一个不完善的解决方案。为了从根本上解决这个问题，持续学习是未来研究工作的一个有前途的途径。

6.3.4 投票和排名

由于LLM生成过程中固有的随机性，使得LLM推理具有随机性和不确定性。通过多种采样策略可以有效缓解这一问题，如图6所示。
在这里插入图片描述
从集成学习中得到启发，投票和排序的实践以及多次采样可以减少不确定性。更重要的是，它展示了可观的业绩相对于单样本方法的改进。带投票的多重抽样已成为当前XoT研究中的一种常用技术。将推理链集成到投票中仍然是未来重要的研究领域。

6.3.5 效率

LLM推理和人工标注的推理链带来了昂贵的开销。
大规模语言模型展示了巨大的能力，但同时也带来了巨大的开销。在未来的研究工作中，平衡性能和开销之间的权衡可能需要引起极大的关注。

7 前沿应用

7.1 工具使用

尽管LLMs展示了广泛的知识，但它也伴随着一些挑战。这些问题包括无法获取最新的新闻，在回答涉及领域外知识的查询时倾向于幻觉，以及缺乏复杂的推理能力，如数学计算或符号推理。通过赋予LLMs使用外部工具的能力，可以增强模型的推理能力和吸收外部知识，使其能够参与信息检索和环境交互。
XoT与工具的结合有效地解决了LLMs面临的挑战。XoT推理能够使模型在管理异常的同时有效地引出、跟踪和更新行动计划。同时，动作操作促进了模型与外部资源(如知识库和环境)的交互，使其能够收集额外的信息。

7.2 规划

       LLMs在直接为复杂问题提供准确响应方面面临挑战，需要将其分解为顺序步骤和子任务。虽然CoT提供了一种直接的规划方法，但它无法解决高度复杂的问题，并且缺乏通过回溯来评估和纠正错误的能力。
       大量研究将"思维链"框架扩展到各种业态，以进一步提升规划能力。另一种技术是提高模型纠正错误和总结历史经验的能力。
       规划增广方法通过引入基于搜索、基于图和基于定义语言的方法，改进了传统的序贯规划。另一方面，一些方法结合了行动、计划、反思或工具，旨在增强LLMs的长期规划和容错能力。

7.3 CoT蒸馏

       LLM可以通过提取推理步骤来自我改进，以解决复杂问题。
       思维合作理论是一种新兴的能力，主要在LLMs中观察到，在小模型中的进展有限。然而，通过蒸馏等技术可以增强小模型的CoT能力。
       目前研究均采用了共享范式，其中，推理链是通过具有较高推理能力的LLM产生的。然后将这些推理链蒸馏成更小的模型。通过从更大的模型中增加采样策略来提高精馏过程的有效性，例如通过使用多个采样路径、一致性或对比解码，从而提高生成的推理链的多样性和准确性，最终使精馏过程有利于更小的模型。值得注意的是，语言模型具有与多维能力相关的复杂权衡和复杂平衡。

8 未来方向

尽管思维链推理在众多任务上表现出了卓越的性能，但仍有一些挑战需要进一步探索。在这一部分中，我们简要概述了未来研究的三种可能途径：多模态XoT推理( § 81 )，Faithfulness XoT推理( § 8.2 )和XoT推理理论( § 8.3 )。

8.1 多模态CoT

       从文本单模态到视觉-文本多模态的转变，在带来更丰富信息的同时，也带来了更多的挑战。一些工作试图通过微调多模态模型来探索多模态场景下的思维导图推理，以生成高质量的思维链。
       我们认为，结合语境学习的视频多模态推理应该是未来研究的重点。一方面，与图像相比，视频引入了额外的具有先天连锁关系的时间信息。通过思维链推理，不同帧中的信息可以自然地连接在一起，显式地建模时间关系，非常适合视频多模态推理。另一方面，小模型是容量限制的，需要微调以获得思维链能力。更糟糕的是，多模态推理链是困难的.
       尽管一些工作已经开始利用思维链推理和解决多模态推理任务，但先前的工作只关注如何构建高质量的微调数据，仍然存在一些挑战：

如何统一视觉和语言特征以获得更好的多模态理解。
如何使用VLMs进行无微调的思维链推理。
如何将图像多模态推理转换为视频多模态推理。

8.2 Faithfulness

       大量研究表明，思维链推理会导致诸如事实错误、语境不一致等幻觉现象。考虑到语言模型本质上属于统计模型，且由于数据噪声和知识遗忘等因素，幻觉现象不可避免。
       一些研究侧重于减轻事实错误。尽管上述方法在知识密集型任务上效果良好，但它们在解决上下文不一致性的挑战方面存在不足。
       尽管针对大型语言模型中的幻觉问题做出了许多努力，但这些工作只是在一定程度上缓解了这个问题。要全面提升大型语言模型的忠实度，还有很长的路要走。我们将未来的方向总结如下：

提高对推理过程中幻觉现象的识别能力；
提高外部知识检索和利用的准确性，以减少事实错误；
提高识别和纠正上下文不一致和逻辑错误的能力，这更具有挑战性。
如何从根本上消除幻觉现象，可以从其他途径入手，例如特定的预训练。

8.3 CoT理论

尽管有令人印象深刻的思维链推理能力，但在指令之后生成思维链的能力仍然缺乏全面的解释。
目前关于思维链理论的研究还处于初步探索阶段。我们将未来的研究方向总结如下：

探索思维链能力的来源，以实现对CoT推理的针对性改进。
从理论上分析思维链相对于语境学习的优势，并探索其能力的边界。

9 讨论

9.1 XoT构式的比较

现有方法构建Xof -思想的方式主要有三种：( 1 )人工标注推理链。( 2 )根据模型自动生成推理链。( 3 )在少量人工标注的推理链上自动扩展的半自动生成。我们观察到，人工构造方法面临与语境学习类似的挑战，即演示文稿的选择、指令的格式化等。这给其应用带来了诸多困难，阻碍了其在不同任务间的迁移能力。自动构造方法缺少高质量标注的指导，导致性能不足。得益于推理链通过自引导和类似的技术，有效地解决了以前方法所面临的挑战。在获得优异性能的同时，它允许跨不同任务之间的轻松迁移。

9.2 验证/改进与规划的比较

规划方法和基于验证/精化的方法之间存在许多相似之处，因为它们都依赖于中间过程的反馈来调整和精化行为。不同之处在于，规划方法包括决策，而基于验证/精化的方法仅处理中间错误，而不涉及更高层次的认知过程。

9.3 对先天弱点的弥补

LLMs在推理时存在许多固有的局限性，例如无法获取外部信息、算术错误和不一致推理等。这些问题可以通过将具体责任委托给专门的模块或模型来巧妙规避。

9.4 其它工作

在这一章中，我们将列举其他代表早期思想链推理尝试或为特定领域而设计的作品。

10 总结

在本文中，我们对现有的关于X - of - Thought推理的研究进行了广泛的调查，对该领域进行了全面的综述。我们引入了广义思维链( XoT)的概念，并从多个角度考察了X - of - Thought推理的研究进展。此外，我们还研究了XoT在前沿领域的应用。此外，我们还指出了本研究目前面临的挑战，并提出了未来的展望。据我们所知，这项调查代表了对思维链推理的第一次系统探索。我们的目的是为对思维链推理感兴趣的研究人员提供一个全面的综述，希望这个调查将促进该领域的进一步研究。