优化AI Agent系统推理能力：探索DeepSeek-R1、OpenAI o1/o3及训练/推理扩展的新路径

本文链接：https://blog.csdn.net/m0_59164520/article/details/145598997

过去一年，生成式 AI 的应用和 AI Agent 的开发呈现爆炸式增长。LangChain 的报告显示，51% 的受访者在生产环境中已经使用了 AI Agent，而 Deloitte 的报告预测，到 2025 年，至少有 25% 的使用生成式 AI 的企业将启动 AI Agent 的试点或概念验证项目。

尽管 AI Agent 框架越来越受欢迎并且发展迅速，但在构建这些系统时，开发者很快就会遇到大语言模型（LLM）固有的局限性，其中模型的推理能力通常是最突出的问题。为了解决这一问题，研究人员和开发者探索了多种技术手段，从采用不同的提示方法（例如 ReAct 或 Chain of Thought，简称 CoT），到构建各自负责规划和评估的多 Agent 系统，而如今，各大公司更是开始发布专门训练以改善模型内置推理过程的新模型。

DeepSeek 的 R1 以及 OpenAI 的 o1 和 o3 公告正引发行业震动，它们相比传统 LLM 提供了更强大的推理能力。这些模型在回答之前会先“思考”，具备一个独立的推理流程，能够将复杂任务拆解为简单步骤，迭代地完成各个步骤，并在给出最终答案前识别和修正错误。这与早期模型（如 GPT-4o）截然不同，后者需要用户通过提示让模型进行逐步思考，并构建循环机制以便模型能迭代地规划、执行和评估任务进展。训练推理语言模型（Reasoning Language Model，RLM），例如 o1、o3 和 R1，其关键差异之一在于更注重后训练阶段和测试时计算资源的扩展。

本文将探讨训练阶段与测试阶段计算资源扩展的关键差异、后训练阶段的要点以及如何训练像 DeepSeek 的 R1 这样的 RLM，并讨论 RLM 对 AI Agent 开发带来的影响。

训练时计算资源 vs 推理时计算资源

概览

计算资源扩展（Compute Scaling）指的是为训练和运行 AI 模型提供更多的资源，比如处理能力和内存。简单来说，训练时计算资源扩展适用于两个阶段：

预训练阶段：模型通过大量数据（例如 Common Crawl 数据集）学习一般模式，预测给定上下文下最可能出现的下一个词或标记。
后训练阶段：在基础模型的基础上，利用强化学习（RL）或监督微调（SFT）等方法进行额外训练，从而学习更具体的行为。

相对地，推理时计算资源扩展应用于模型在预测阶段。它通过提供更多的计算能力，使模型在生成最终答案前能够“思考”，探索多个可能的解决方案。

需要明确的是，虽然推理时计算扩展和后训练都能帮助模型在输出最终结果前进行“思考”，但它们的实现方式截然不同。

后训练是通过更新或重新训练模型来实现的，而推理时计算扩展则是在推理过程中不改变模型参数的前提下，利用额外的计算资源探索多种答案。实际上，两者可以结合使用——例如，你可以先用后训练优化模型的推理能力（如 DeepSeek-R1 所示），然后在推理时通过额外计算进一步提升其“思考”效果。

Image by author. Depicts a very simple representation of pre-training and post-training. Note that there can be significant variations in post-training, but essentially the base model is modified in some way to create an updated model better suited to the task.

训练时计算资源：预训练与后训练

目前，大多数大语言模型（LLM）和基础模型都是通过对来自互联网等来源的大量数据进行预训练来学习。这些数据涵盖了各种各样的人类文本，预训练阶段让模型学会在给定上下文中预测下一个最有可能出现的词或标记。预训练完成后，大部分模型还会经过一种称为监督微调（SFT）的过程，以便针对指令遵循或聊天场景进行优化。

总体而言，这一训练流程极为耗费资源，需要进行多次训练，每次花费数百万美元，才能产生如 Claude 3.5 Sonnet、GPT-4o、Llama 3.1–405B 等模型。这些模型在逻辑推理、数学、编码、阅读理解等各种基准测试中表现卓越，适用于多种通用任务。

然而，尽管这些模型在各类问题上表现优异，但要让典型的 LLM 在回答前真正“思考”起来，往往需要用户进行大量工程上的包装。基本上，这些模型接收输入后，会直接输出一个答案——可以视作模型基于预训练所学或通过上下文提示即时生成的最佳猜测。这种“一步到位”的行为正是催生 Agent 框架、链式思维（Chain-of-Thought, CoT）提示以及工具调用等方法的原因。这些模式使得开发者能够围绕 LLM 构建系统，实现更迭代化、结构化且更成功的应用开发流程。

最近，DeepSeek-R1 等模型开始偏离传统的预训练和后训练模式，不再单纯优化模型用于聊天或指令遵循，而是采用多阶段的后训练流水线，专门教会模型一些更具体的行为（例如如何生成链式思维序列），从而整体上提升模型的“思考”和推理能力。接下来的章节中，我们将以 DeepSeek-R1 的训练流程为例，详细探讨这一过程。

推理时计算资源扩展：在推理阶段实现“思考”

令人兴奋的是，通过推理时计算扩展和后训练技术，可以将推理和迭代式问题求解的能力内置到模型或其推理流水线中。不再需要完全依赖开发者来引导整个推理和迭代过程，而是让模型在生成答案前自行探索多种解决路径，对进展进行反思、评估并选出最佳方案，从而优化整体的推理流程。

需要注意的是，推理时计算资源扩展主要针对推理阶段的性能优化，不涉及对模型参数的修改。实际上，这意味着一个较小的模型（例如 Llama 3.2–8b）可以通过在推理阶段花费更多时间“思考”和探索众多可能方案，与更大模型一较高下。

常见的推理时计算扩展策略包括：

自我优化（Self-Refinement）：模型不断迭代地优化自身输出。
与验证器配合的搜索（Searching Against a Verifier）：生成多个可能答案，由验证器挑选出最佳路径。

常用的验证器搜索策略包括：

Best-of-N：针对每个问题生成多个回答，对每个回答进行评分，最终选出得分最高的答案。
Beam Search：通常使用过程奖励模型（Process Reward Model, PRM）对多步推理过程进行评分。该策略先生成多个解决路径（束），确定哪些路径值得继续搜索，然后生成新的一组子路径并进行评估，直至得出解决方案。
多样化验证树搜索（Diverse Verifier Tree Search, DVTS）：与 Beam Search 类似，不过为每个初始路径构建独立的搜索树，再对各分支进行扩展和评分。

Image by author inspired by HuggingFace blog on Test Time Compute Scaling

目前，确定哪种搜索策略最优仍是一个活跃的研究领域。不过，HuggingFace 上已经有许多优秀的资源和示例，展示了这些策略如何在实际应用中实现。

训练推理语言模型（RLM）

OpenAI 于 2024 年 9 月发布的 o1 模型，是首批在回答用户前会先“思考”的模型之一。虽然相比 GPT-4o 等模型，o1 的响应时间较长，但由于它会生成链式思维序列以帮助分解并解决问题，因此在应对更复杂任务时通常表现更好。

与 o1 和 o3 模型交互时，需要采用与之前几代模型不同的提示工程方法，因为这些新型推理模型的工作方式与以往有很大不同。例如，对 o1 或 o3 直接下达“逐步思考”的指令，其效果远不如对 GPT-4o 发出同样指令时那么显著。

由于 OpenAI 的 o1 和 o3 模型均为闭源，外界无法得知其具体开发细节，这也是 DeepSeek-R1 备受关注的重要原因之一。DeepSeek-R1 是首个在行为和性能上可与 OpenAI o1 相媲美的开源模型，对开源社区意义重大——这意味着开发者可以根据自身需求修改 R1，并在计算资源允许的情况下，复现其训练方法。

DeepSeek-R1 训练流程：

DeepSeek-R1-Zero：首先，DeepSeek 对其基础模型 DeepSeek-V3 进行了强化学习（RL，即后训练），从而产生了 DeepSeek-R1-Zero 模型。该模型学会了推理、生成链式思维序列，并展现出自我验证与反思等能力。仅通过 RL 学会这些行为，对整个 AI 行业来说意义非凡。然而，尽管 DeepSeek-R1-Zero 在学习能力上表现出色，但它存在语言混用、可读性差等问题，这促使团队探索其它路径以稳定性能并打造更适合生产环境的模型。
DeepSeek-R1：构建 DeepSeek-R1 采用了一个多阶段后训练流水线，交替进行 SFT 和 RL 步骤。首先，研究人员对 DeepSeek-V3 使用数千个链式思维（CoT）示例数据进行 SFT，以期为后续 RL 提供一个更稳定的起点并解决 R1-Zero 的问题。接下来，进行 RL，并引入奖励机制，促进语言一致性，并提升在科学、编码、数学等任务中的推理能力。之后，再次进行 SFT，此次加入非推理类训练示例，帮助模型保留如写作和角色扮演等通用能力。最后，再次进行 RL，以使模型更符合人类偏好。最终，这一流程产生了一个拥有 671B 参数的高性能模型。
蒸馏版 DeepSeek-R1 模型：DeepSeek 团队进一步证明，DeepSeek-R1 的推理能力可以仅通过 SFT（无需 RL）蒸馏到更小的开源模型中。他们基于 Qwen 和 Llama 架构，对参数量在 1.5B 至 70B 范围内的模型进行微调，最终获得了一系列轻量高效、推理能力更强的模型。这大大提升了开发者的使用门槛，因为许多蒸馏模型能够在设备上快速运行。

结论：提升推理模型对 AI Agent 的影响

随着以推理为先的模型和推理时计算扩展技术的不断进步，AI Agent 的系统设计、能力以及用户交互体验都将发生显著变化。

展望未来，我相信我们将看到更简化的 Agent 团队。未来可能不再需要为每种超特定应用场景设置独立的 Agent 和专用提示、工具，而会出现一种设计模式——由单一的推理语言模型（RLM）管理整个工作流程。如果 Agent 能够更自主地探索多种解决方案，那么用户提供的背景信息也可能会大幅减少。

此外，用户与 Agent 的交互方式也将发生转变。目前许多 Agent 接口依然以聊天为主，用户期望获得近乎即时的响应。但由于 RLM 的响应时间较长，用户的期望和体验必然会随之转变，我们可能会看到更多用户将任务委托给后台运行的 Agent 团队。这些任务执行时间可能长达数分钟甚至数小时，具体取决于任务的复杂度，但理想情况下将产生详尽且高度可追溯的输出，从而使用户能够同时将多个任务交由不同的 Agent 团队处理，把更多精力投入到以人为本的工作中。

尽管这些以推理为重点的模型表现可圈可点，但目前许多模型仍缺乏工具调用功能。OpenAI 最新发布的 o3-mini 就是首个原生支持工具调用、结构化输出以及开发者提示（新版系统提示）的推理模型。工具调用对于 Agent 至关重要，因为它使 Agent 能够与外部世界交互、收集信息，并真正代表用户执行任务。鉴于这一领域的创新速度之快，我预计不久之后会有更多集成了工具调用能力的 RLM 问世。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述