大模型论文 | “推理法庭“:多模型协作让AI推理更精准,多跳推理准确率大幅提升

1、引言:AI推理的困境

你是否曾经被AI给出的答案搞糊涂过?明明听起来很有道理,但总感觉哪里不对劲?

没错,即使是当下最先进的大语言模型(LLM),在面对需要多步骤推理的复杂问题时,依然会出现幻觉(生成虚假信息)和推理错误(无法正确整合和解释证据)。尤其是在需要整合多个信息源的"多跳推理"任务中,这一问题更为突出。

近日,一项名为"Reasoning Court"(推理法庭)的创新框架问世,它通过引入"法官"角色来评估多个AIagent的推理过程,显著提升了复杂推理任务的准确性。这一研究或将为未来AI系统的可靠性和自我评估能力开辟新的发展方向。

在这里插入图片描述

2、推理法庭:法官制裁AI的推理谬误

传统方法的局限性

目前解决多跳推理问题的方法主要有三类:基于检索的技术(将推理建立在外部证据上)、基于推理的方法(通过改进提示提高连贯性)或混合策略(结合两者)。其中,ReAct作为一种混合方法,已经超越了纯检索或纯推理的方法,但它仍缺乏对中间推理步骤的内部验证机制,导致潜在错误在复杂推理任务中传播。

推理法庭的创新之处

Reasoning Court(RC)创新性地在迭代推理和检索方法(如ReAct)的基础上,引入了一个专门的LLM"法官"。与ReAct不同,RC雇佣这位法官独立评估由不同LLMagent生成的多个候选答案及其相关推理过程。

工作原理详解:两阶段框架

RC的工作流程分为两个核心阶段:

1. 推理与检索阶段:

1)基于ReAct框架,两个agent同时独立工作
2)每个agent交替进行推理和检索,最多进行7步(HotpotQA和MuSiQue数据集)或5步(FEVER数据集)
3)行动空间包括搜索实体、查找字符串和给出最终答案等操作
4)两个agent分别生成各自的答案和研究轨迹

2. 评判阶段:

1)"法官"接收查询、两个agent提供的最终答案及其对应的研究轨迹
2)法官评估每个解决方案,验证其推理是否仅基于提供的证据,是否不存在逻辑错误或无支持的假设
3)当两个答案不同时,法官会选择基于更准确和连贯推理的那个,并简要解释选择的原因
4)如果认为所有候选答案都不足够或有缺陷,法官会基于现有证据或预训练知识合成一个新的答案

3. 一个典型例子

比如在判断某人是否是电视剧编剧的任务中:

1)agent1错误地推断某人的电视制作角色意味着他是编剧,得出"是"的结论
2)agent2正确地指出只有另一位人物明确是电视剧编剧,得出"否"的结论
3)在评判阶段,LLM法官识别出agent1的错误推理,选择agent2的答案,从而给出正确的最终回答

3、实验结果

在这里插入图片描述

多项基准测试证明有效性

研究团队在三个具有挑战性的多跳推理基准上评估了RC:FEVER(事实验证)、HotpotQA(需要从整个维基百科检索证据)以及MuSiQue(需要在20个段落中进行多次推理跳转)。实验结果表明,RC在所有基准测试中都一致超越了最强的少样本提示基线,在精确匹配(EM)和F1分数上取得了显著提升。

法官的高效决策能力

特别是在法官评估方面的分析显示:

(1)当一个agent正确而另一个不正确时,法官以高准确率选择正确答案(FEVER上为84.2%,HotpotQA上为90.6%)

(2)即使在两个agent都失败的情况下,法官也能在一定比例的案例中推导出正确答案(FEVER上为14.7%,HotpotQA上为7.0%)

(3)这种情况下的纠错能力是ReAct或CoT等基线方法无法实现的

效率与成本优势

RC不仅在准确性上表现出色,在效率方面也有明显优势:

(1)在HotpotQA上,RC平均每个问题的LLM调用次数为8.8次,而ReAct→CoT-SC为9.81次
(2)尽管处理时间略有增加(10.58秒vs 9.53秒),但RC降低了LLM使用成本,同时保持了更高的准确性
(3)这使RC成为实际应用中既可靠又具成本效益的解决方案

在这里插入图片描述

4、深入剖析:为什么推理法庭如此强大?

法官的关键作用

当去除法官组件时,RC的性能在所有基准测试中显著下降,这证明了法官在评估最终答案是否逻辑一致和事实准确方面的关键角色。没有法官,推理错误更容易直接导致不正确的最终答案。

结构化评估优于一致性

RC明显优于ReAct-SC(使用三个独立工作的agent并应用自一致性选择最一致的答案)。这表明,由法官进行的结构化评估比仅仅依靠自一致性能够带来更可靠的结果。

研究轨迹质量的重要性

实验还表明,研究轨迹的质量对法官的决策至关重要。当用缺乏证据检索的链式思考(CoT)推理替代RC的推理-行动协同时,性能显著下降。这表明,由动态检索证据丰富的轨迹比纯粹的推理轨迹提供了更深入和更有支持的信息。

尽管推理法庭展现出了令人振奋的潜力,但它仍面临一些限制:

(1)不是所有模型都适用:推理和检索阶段并不能可靠地推广到所有LLM

(2)一致错误难以纠正:当两个agent自信地提供相同但不正确的答案时,法官很少推翻这种不正确的共识

(3)推理深度的挑战:法官擅长检测明显的推理错误,但可能无法识别agent的推理表面上看起来逻辑合理,但实际上缺乏足够深入或彻底的证据收集的情况

尽管如此,随着大语言模型的不断发展,推理法庭代表了一个向更可靠和自我评估推理系统迈进的有前途方向。它有可能显著提高语言模型在复杂推理任务上的可解释性和准确性,特别是在多个LLMagent产生不同推理路径或结论的场景中。

此外,推理法庭背后的原则可能扩展到开放式问题和其他推理密集型应用,这表明其在各种领域都有广泛的适用性。

我们期待这一创新框架在未来获得更广泛的应用,并进一步推动AI推理能力的发展。你对"推理法庭"有什么想法?欢迎在评论区分享你的见解!

论文标题:Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning
论文链接:https://arxiv.org/abs/2504.09781


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值