本研究探索 SSRL,通过大语言模型 (LLM) 内部世界知识的利用,可以显著提升 Search Agent 的训练效率和稳定性。实验证明,该方法在多种基准测试中优于传统基于外部搜索引擎的方法,同时首次在 LLM 智能体领域实现了从模拟到真实 (Sim2Real) 的有效迁移。
本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。第一作者为上海 AI Lab 博士生樊钰辰,研究方向是 Agent 以及强化学习;通讯作者为清华大学周伯文教授。
此前的 Agentic Search RL 任务大多采用真实搜索引擎,导致训练效率低,速度慢,稳定性差。ZeroSearch 探索利用另一个模型提供信息的训练方法,取得了较好的表现。然而,模型依赖自身世界知识能够达到的上限,以及如何有效利用自身世界知识,降低幻觉仍然是一个值得探究的问题。为研究这些问题,本文引入 SSRL。
SSRL 利用结构化的 prompt 和 format reward,有效地提取出了模型中的 world knowledge,在各个 benchmark 上取得了更好的效果,有效地降低了模型的幻觉。本文接着探索训练 agent 是否需要真实环境的参与,并发现在接入真实搜索引擎后,经过 SSRL 训练的模型可以取得更好的效果,体现了 Sim2Real 的有效性。
SSRL 所有训练数据,训练细节,以及训练模型均已开源。

- Github链接: https://github.com/TsinghuaC3I/SSRL
- 论文链接:https://arxiv.org/abs/2508.10874
一句话总结
本研究探索 SSRL,通过大语言模型 (LLM) 内部世界知识的利用,可以显著提升 Search Agent 的训练效率和稳定性。实验证明,该方法在多种基准测试中优于传统基于外部搜索引擎的方法,同时首次在 LLM 智能体领域实现了从模拟到真实 (Sim2Real) 的有效迁移。
一、动机
当前 RL 训练 Search Agent 主要有两种方式:
1. 全真实搜索 (Full-Real Search):直接调用商业搜索引擎 API 或检索增强生成 (RAG) 本地知识库
2. 半真实搜索 (Semi-Real Search):使用辅助 LLM 模拟搜索引擎行为
问题:
- 高昂成本:商业 API 调用费用昂贵,本地知识库加重 GPU 负担,且和真实场景存在差距
- 训练效率低下:多轮工具调用导致 rollout 效率降低
- 训练不稳定性:外部信息引入导致模型容易崩溃
- 非端到端训练:半真实搜索仍需额外微调步骤
综上所述,目前的 Search Agent 训练非常昂贵,耗时,且不稳定。
如何能够降低训练成本与训练时间,同时能够稳定地训练 Search Agent 呢?
面对这些问题,我们首先进行了对于 LLM 依赖自身世界知识所能达到的效果的上限的探究。我们利用 structured prompt 诱发 LLM 自发地利用世界知识,并且通过 pass@k 证明了其极高的上限。受此启发,我们尝试用 RL 进一步强化模型利用自身世界知识的能力,探索 SSRL 的效果。在此基础上,我们首次在 LLM Agent 领域提出 Sim2Real,并验证 SSRL 训练的模型在真实场

最低0.47元/天 解锁文章
27

被折叠的 条评论
为什么被折叠?



