当面对复杂的多跳问题时,仅依靠模型内部的知识储备往往难以准确作答,因为这些问题需要多步检索外部信息才能找到答案。ReSearch 框架应运而生,它创新性地将推理与外部搜索过程相结合,通过强化学习(通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法)的方式训练大语言模型,在不依赖推理步骤监督数据的情况下,实现了更高效、准确的复杂问题解答。
一、ReSearch 框架概述
ReSearch 框架的核心在于将推理链的概念进行拓展。传统的基于文本的思考方式(如 DeepSeek - R1 中被<think></think>包围的内容)只是其中一部分,搜索查询(被<search></search>包围)和检索结果(被<result></result>包围)也被纳入推理链。在这个框架里,搜索操作不再是孤立的,而是与基于文本的思考相互作用。基于文本的思考会引导何时以及如何进行搜索,而搜索结果又会影响