赋能大模型人类高级推理技巧!小米和人大高瓴联合发布全新大模型思维框架DetermLR!...

小米AI实验室大模型团队和中国人民大学高瓴人工智能学院严睿老师团队联合提出了全新的大模型思维框架DetermLR,将逻辑推理过程描述为不确定信息确定信息的演变,指导LLM灵活调整推理结构以适配各种任务。我们采用量化指标来确定条件的优先级,让LLM能够优先考虑更有利于推导结论的条件,提高推理的效果和效率。我们还开发了推理记忆模块来自动存储和提取可用前提和推理路径,确保在迭代推理过程中考虑必要的历史推理细节。实验结果表明DetermLR在四项逻辑推理任务上都显著优于之前的思维框架(思维链CoT、思维树ToT、累积推理CR等)。在保证推理准确性的同时,DetermLR还能降低平均推理迭代轮数,可以进一步提高逻辑推理的效率。

一、研究背景

近期大语言模型 (LLM) 的迅猛发展带来了人工智能领域研究与应用的变革,其中,LLM涌现出来的推理能力尤其引起了学界和业界的广泛关注。认知科学的研究表明,人类的思维方式包括:

1. 快速、直觉的“系统1”:直接对问题产生结论;

2. 缓慢、谨慎、符合逻辑的“系统2”:对问题进行分步解决,最终产生结论。

7acb0797d4db972f63a2f5037b47f4b0.png

两种人类思维方式

针对推理问题,让LLM采用“系统1“的回复方式很容易产生错误,需要让LLM向“系统2”进行过渡。达到这一目标的主流的做法是通过提示工程的技术来引导LLM输出推理规划的中间步骤,比如思维链。在思维链方向,当前相关工作集中于定制更复杂的思维结构(思维树ToT或思维图GoT)来建模中间推理步骤以应对更复杂的推理任务。这种方法预先定义了解决问题的思维结构,与人类思考的方式存在较大的差异。

人类在实际解决一个问题的时候,并不会预设一个推理结构,所谓的推理结构应该是基于人类解决问题后,复盘出来的推理结果。那么核心问题就是:人类推理的核心过程是什么?我们的答案是:人类推理的核心是经过分析推导,将不确定信息整理成确定信息的过程。

基于这样的想法,我们提出了一个全新的大模型思维框架DetermLR,通过将推理过程建模为由不确定信息向确定信息的演变,使LLM更好模拟人类高级推理技巧,同步提升LLM解决推理问题的效果与效率。

二、挑战与动机

最近,相关工作集中于定制更复杂的思维结构(思维树ToT或思维图GoT)来建模中间推理步骤以应对更复杂的推理任务。这样的方法有以下几个挑战:

1. 难以为各种推理任务分配合适的推理结构:由于任务的复杂度很难明确指定,因此预定义某种结构(思维链、树、图)来处理一系列不同难度的问题很难同时兼顾推理效果与效率,而且与人类思维方式差异较大。人类解决问题时并不依赖事先预设的推理结构,而是在解决不同复杂程度的问题后分析总结出不同推理结构。

2. 难以充分且高效地利用已知条件来推导新信息:在基于已有条件来推导新信息的过程中,累积推理(CR)等工作随机选出若干前提并尝试将它们合并为新命题。这种基于随机采样/搜索的方法无法考虑不同前提的利用价值,也无法明确推理方向。而人类擅长分析不同已知信息与结论的关联,区分不同信息利用的优先级,并寻找一个“突破口”来开展新信息推导。

3. 难以利用历史推理经验指导未来推理步骤的方向:现有思维框架(如思维树)不能很好地利用历史推理经验,在整个推理步骤中可能会重复同样的错误,这说明忽略历史推理细节会导致缺乏未来推理步骤必要的关键信息,导致推理停滞或产生幻觉。人类在解决推理问题时会记住先前推导的成功与失败经验,避免同样错误重复发生。

为了应对这些挑战,并让LLM掌握更接近人类的高级推理技能,我们需要关注以下三个关键因素

1. 更精确地识别现有前提的确定性,有利于制定更有效的逻辑推理过程;

2. 对已知前提作精细的优先级划分来探索新信息,有利于提高对已知信息的利用效率和新信息的探索效率;

3. 合理利用历史推理细节,有利于指导当前及未来推理步骤的方向。

三、DetermLR框架介绍

逻辑推理过程一般需要事先确定给定任务的已知前提目标结论。随后,我们在DetermLR框架中提出了以下三个关键技术模块

29731df96df40180b8aebe25376a3ab1.png

DetermLR框架概览图

1. 前提识别:我们系统地将已知前提划分为两种类型:确定前提不确定前提,使得LLM能够灵活定制推理结构以匹配特定任务的复杂性。确定前提指与目标结论直接相关的简单命题,内容表述包含明确的事实或条件。相反,不确定前提包含与结论不直接相关的命题,通常涉及复杂的陈述,如选言命题(P或Q)和假言命题(如果P,那么Q)。它们可以作为补充命题,通过与其他条件建立推理结论的逻辑路径。不确定前提会在推理进行中逐步演变成确定状态,使得结论逐渐清晰。

7e55719852d1d8c7ba583adc0e37e5c9.png

前提识别

2. 前提优先级排序与探索:我们定量评估每个前提与目标的相关性,优先考虑更相关的前提以探索新信息。首先,我们利用LLM定量评估前提与结论的相关性,并从确定前提中选出与结论最相关的前提作为核心前提。然后,我们定量评估其他前提与核心前提的关联,并筛选出可能与核心前提进行逻辑交互的辅助前提。最后,我们基于核心前提和辅助前提产生新命题,并验证其是否符合逻辑规则、有利于推导结论、不重复于现有前题等来控制其质量。通过所有验证的新命题会被更新到确定前提集合中,用于后续前提优先级排序与探索。

ce2180ab6575a0ba98507d568f41d7fa.png

前提优先级排序与探索

3. 迭代过程的推理记忆:我们引入推理记忆(reasoning memory)模块自动存储和提取可用前提和推理路径,保留历史推理细节,以便在迭代推理过程中进行更准确的前提优先级排序和探索。除了所有可用的前提,我们还将成功或失败的前提探索步骤更新到memory中,避免LLM重复选择先前错误的前提组合。

5f7b4b3af09259fbb4763f0747a86fd7.png

迭代过程的推理记忆

四、实验

我们在四个具有挑战性的逻辑推理数据集(LogiQA、ProofWriter、FOLIO 和 LogicalDeduction)上进行实验,对比的baseline推理方法包括思维链(CoT),自洽思维链 (CoT-SC),思维树 (ToT) 和累积推理 (CR)。

DetermLR可以在更少的推理轮数下获得更优的推理表现,印证了其在处理逻辑推理任务方面效率和效果上的优越性。Ablation实验结果表明前提识别、前提优先级排序与推理记忆模块都对DetermLR的推理能力均有显著贡献。

95ffbdf5ddb45d967b746a6f2f9c81f7.png

对比实验结果

以下两个示例说明问题上下文的复杂程度不一定与问题本身难度正相关。

Case A问题的上下文非常复杂,总共包含18个已知前提(6确定,12不确定),但最终与目标结论相关的有用前提则只有d6, d7, i5这三个,而且只需要线性的思维链推理就可以解决该问题。

相反,Case B问题的上下文描述相对简单,总共只有4个已知前提,但推理过程需要反复利用这些前提中的信息,并产生很多新的确定前提(d1-d7)作为关键的中间桥梁,才能得到最终结论。最终的推理路径是复杂的图结构。

因此,仅根据问题上下文长度或已知前提个数很难确定推理任务的具体难度。通过分析已知前提并做确定性的划分有助于识别问题本质复杂程度,从而在后续推理过程中自动化定制出合适的推理路径结构。

892e52a222cf343bed96f649bd9e58f8.png

defa696955a11b280a1bc863206c939c.png

上下文复杂性与推理结构的对比示例

五、总结与展望

我们提出了一个全新的大模型思维框架DetermLR,通过将推理过程建模为由不确定信息向确定信息的演变,使LLM更好模拟人类高级推理技巧,同步提升LLM解决推理问题的效果与效率。

为了比较LLM利用已知信息探索新见解,并最终推导目标结论的能力,我们主要在逻辑推理任务上做了实验验证。未来,我们认为DetermLR框架同样可以应用到其它推理任务场景(数学推理,符号推理等),只要根据具体问题定义好可用信息的确定性与不确定性,推理结论的过程本质上仍然服从不确定信息逐步减少,确定信息的逐步累积的过程。

-

论文标题:From Indeterminacy to Determinacy: Augmenting Logical Reasoning Capabilities with Large Language Models

作者:孙宏达,徐伟恺,刘伟,栾剑,王斌,商烁,文继荣,严睿

论文链接:http://arxiv.org/abs/2310.18659

代码链接:https://github.com/XiaoMi/DetermLR(代码开源中)

82bbf99207384d49cd9d05ff06c5b155.gif

fbdd47d4145ff56e2da41fa9d75ebb46.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值