大语言模型推理策略全解析,通向 AGI 的关键一步!零基础小白收藏这一篇就够了!!

前言

在人工智能飞速发展的当下,大语言模型(LLMs)凭借强大的语言处理能力,成为了迈向通用人工智能(AGI)征程中的焦点选手。但你知道吗?LLMs 在语言能力上虽然表现卓越,可一旦涉及复杂推理任务,就会暴露出明显短板。今天,咱们就深入研读《Thinking Machines: A Survey of LLM based Reasoning Strategies》这篇综述论文,一起探寻提升 LLMs 推理能力的奥秘,看看它们离真正的 “思考” 还有多远。

一、LLMs 推理能力的现状与挑战

从认识论角度看,“推理” 是人类基于证据或前提得出结论的能力,它让我们能思考、获取知识并做出明智决策。GPT-3 曾展现出初步推理和指令跟随能力,后续的 ChatGPT、GPT-4 更是在多项任务中表现出色,思维链提示法的出现,让模型能将复杂问题拆解为多个步骤逐步解决,使得 GPT-4 被认为有了 “AGI 的火花”。

然而,研究发现 LLMs 在结构化基准测试中的推理,并非真正意义上像人类一样思考。以复杂数学证明为例,LLMs 在缺乏额外指导时,很难将问题分解并迭代优化解决方案。尽管模型不断扩大规模,推理能力的提升却愈发困难,OpenAI 的 o1 模型参数数量与 GPT-3.5 相同,却在数学和推理任务上超越了规模大 10 倍的 GPT-4,这表明单纯扩大预训练规模收益在递减,促使研究人员寻找创新方法来激发 LLMs 的真正推理能力。

二、提升 LLMs 推理能力的方法

(一)强化学习

图片

在基于推理的系统中,强化学习旨在让智能体(这里就是 LLM)通过与环境交互,选择期望奖励最高的路径,这些路径中的中间步骤就是推理步骤。这一策略主要分为以下几类:

  1. 言语强化

    基础语言模型结合记忆(上下文或外部记忆)根据提示生成行动轨迹,该行动会被输入到环境中,由基于语言模型的评估器和自我反思器以自然语言形式提供反馈,反馈信息存储在记忆中,用于指导后续生成。像 ReAct 和 Reflexion 框架,就通过这种方式增强模型推理能力。

    图片

  2. 基于奖励的强化

    • 过程监督

      这种方式会根据每个推理步骤对形成最优推理链的相关性进行单独奖励,让模型能得出更连贯的最终答案。例如 DialCoT 利用 PPO 激发模型的思维链推理,将问题拆分为多个子问题分别奖励;VinePPO 则通过蒙特卡罗模拟中间步骤改进 PPO 算法,提升计算效率和准确性。但获取过程监督数据难度大,训练价值网络成本高,因此研究人员引入直接偏好优化(DPO),直接利用正负偏好数据对更新模型策略,但 DPO 在推理任务上存在不足。后来,研究者将过程监督与偏好优化结合,利用 MCTS 生成中间状态偏好对,改善推理效果。

      图片

    • 结果监督

      尽管有研究表明过程监督优于结果监督,但像 Deepseek - R1 这样仅依赖结果奖励的模型却表现出色,GRPO 算法也通过在策略更新时用组相对分数替代价值网络,对 PPO 进行了改进。此外,还有研究通过合成数据训练逐步式结果奖励模型(s - ORM),解决传统奖励模型的稀疏奖励和信用分配问题。

  3. 搜索 / 规划

    强化学习中的搜索技术主要利用蒙特卡罗树搜索(MCTS)及其变体,通过模拟未来结果来指导决策。在 AlphaGo 中,MCTS 与价值和策略网络结合探索潜在棋步,这一思路被应用到数学等领域。价值网络可通过 MCTS 滚动采样收集的偏好数据或蒙特卡罗估计总体奖励进行训练。现在,将 LLMs 视为世界模型的框架也开始出现,结合 MCTS 等搜索策略探索潜在解决方案。

    图片

(二)测试时计算

图片

现代 LLMs 推理能力虽强,但固定参数和静态推理限制了它们在新任务或复杂任务中的实时适应能力。测试时计算旨在克服这些限制,在部署阶段让模型优化或扩展推理能力,且预训练的 LLM 不会通过监督学习或强化学习进行训练。主要包括:

  1. 反馈引导改进

    • 生成时反馈

      LLM 在生成过程中接收反馈,可分为步反馈(SF)和结果反馈(OF)。步反馈利用束搜索或 MCTS,在推理过程的每一步由评估模块提供反馈,保留得分最高的推理链;结果反馈则是生成多个结果后由外部评估模块打分,仅保留最高分的结果。基于此,有多种模型被提出,比如以代码执行作为评估的 CodeT 和 LEVER,以外部知识作为评估的 MemPrompt,还有以训练模型作为评估的 GRACE 和 CoRE 等。

      图片

      图片

    • 事后反馈

      基础 LLM 生成输出后,可用单独模型进行事后优化。如 LLM - Based Debate,让 LLMs 分别扮演考生和考官进行多轮辩论来改进答案;还有利用训练模型反馈和优化的方法,通过标量值或自然语言反馈在推理阶段修正生成的响应,生成 - 评估 - 优化的流水线在近期受到广泛关注。

  2. 扩展测试时计算

    • 扩展令牌计算

      通过并行生成多个中间令牌输出(推理步骤),探索多种合理推理路径,如思维链(CoT)提示法及其变体。树状思维(ToT)可同时探索多个推理分支并选择最佳分支,森林状思维(FoT)利用稀疏激活选择相关推理路径,图状思维(GoT)通过图操作聚合和优化思维,缓冲思维(BoT)则引入元缓冲区存储高级元思维。此外,还可将搜索与 CoT 相结合,如 CoT with search 利用验证器检查推理步骤的可推导性,减少错误积累。

      图片

    • 自我反馈

      一是自然语言自我反馈,Selfrefine 通过同一 LLM 生成自然语言反馈来优化推理过程,Weng 等人提出的方法则是让 LLM 对多个采样答案打分,选择得分最高的作为最终答案。二是将自我反馈作为树搜索的分数,如 Zhu 等人提出的解码算法利用自我反馈进行束搜索推理,MCTS 结合 LLM 引导的自我反馈也能提升推理效果。ReVISE 则是一种结合自我训练和测试时扩展的混合方法,利用结构化偏好学习和置信感知解码机制,提升模型性能。

(三)自训练方法

预训练语言模型虽推动了自然语言处理发展,但面对动态的真实世界数据,其固定权重成为瓶颈。自训练方法通过利用精心整理的自我生成推理轨迹对预训练 LLMs 进行微调,更新模型权重。一般包含以下技术:

  1. 监督微调

    使用因果语言建模损失在输入输出对上对预训练模型进行微调。

  2. 拒绝微调

    为每个提示生成推理依据和答案,只有当生成的答案正确时,才用生成的三元组进一步微调模型。

  3. 偏好调整

    构建偏好数据集,通过直接偏好优化(DPO)微调模型,使其更倾向于生成能得到正确答案的推理轨迹。

  4. 强化学习

    构建包含奖励的数据集,使用强化学习技术更新模型,最大化期望累积奖励。

像 STaR 利用拒绝微调生成推理模型,v - STaR 在此基础上应用 DPO,ReFT 通过强化学习对监督微调后的模型进一步优化,Self - Explore 则结合多种方法逐步提升模型推理能力。

图片

三、现存挑战

  1. 过程监督信号自动化难题

    开发过程奖励模型需要详细的过程监督信号,目前依赖人力标注,成本高且效率低,实现标注过程自动化是提升模型可扩展性和效率的关键。

  2. 计算负担与过度思考问题

    MCTS 虽解决了过程监督中价值网络的一些问题,但搜索空间大,容易导致过度思考,增加计算复杂度和降低效率。

  3. 步级偏好优化成本高昂

    步级偏好学习能解决 DPO 在推理任务中的问题,但步级偏好标注比实例级标注成本高,且标注结果易出现不一致和主观偏差。

  4. 测试时计算依赖预训练质量

    测试时计算能让小模型在简单问题上超越大模型,但对于难题,如果基础模型预训练不扎实,增加推理计算也难以弥补其缺陷。

  5. 测试时扩展的局限性

    思维链提示法对参数超过 100B 的 LLMs 效果显著,但对参数小于 10B 的小语言模型,在某些情况下可能产生负面影响。

四、结语

这篇论文系统梳理了提升 LLMs 推理能力的各类方法及其面临的挑战。当前 LLMs 推理能力的研究仍处于探索阶段,虽然取得了一些进展,但距离实现真正像人类一样的推理还有很长的路要走。未来,需要研究人员不断创新,解决现有挑战,推动 LLMs 向通用人工智能的目标迈进。

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值