自搜索强化学习SSRL：Agentic RL的Sim2Real时刻

最新推荐文章于 2025-12-05 22:05:00 发布

原创

最新推荐文章于 2025-12-05 22:05:00 发布 · 772 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #人工智能

本研究探索 SSRL，通过大语言模型 (LLM) 内部世界知识的利用，可以显著提升 Search Agent 的训练效率和稳定性。实验证明，该方法在多种基准测试中优于传统基于外部搜索引擎的方法，同时首次在 LLM 智能体领域实现了从模拟到真实 (Sim2Real) 的有效迁移。

本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。第一作者为上海 AI Lab 博士生樊钰辰，研究方向是 Agent 以及强化学习；通讯作者为清华大学周伯文教授。

此前的 Agentic Search RL 任务大多采用真实搜索引擎，导致训练效率低，速度慢，稳定性差。ZeroSearch 探索利用另一个模型提供信息的训练方法，取得了较好的表现。然而，模型依赖自身世界知识能够达到的上限，以及如何有效利用自身世界知识，降低幻觉仍然是一个值得探究的问题。为研究这些问题，本文引入 SSRL。

SSRL 利用结构化的 prompt 和 format reward，有效地提取出了模型中的 world knowledge，在各个 benchmark 上取得了更好的效果，有效地降低了模型的幻觉。本文接着探索训练 agent 是否需要真实环境的参与，并发现在接入真实搜索引擎后，经过 SSRL 训练的模型可以取得更好的效果，体现了 Sim2Real 的有效性。

SSRL 所有训练数据，训练细节，以及训练模型均已开源。

Github链接: https://github.com/TsinghuaC3I/SSRL
论文链接：https://arxiv.org/abs/2508.10874

一句话总结

一、动机

当前 RL 训练 Search Agent 主要有两种方式：

1. 全真实搜索 (Full-Real Search)：直接调用商业搜索引擎 API 或检索增强生成 (RAG) 本地知识库

2. 半真实搜索 (Semi-Real Search)：使用辅助 LLM 模拟搜索引擎行为

问题：

高昂成本：商业 API 调用费用昂贵，本地知识库加重 GPU 负担，且和真实场景存在差距
训练效率低下：多轮工具调用导致 rollout 效率降低
训练不稳定性：外部信息引入导致模型容易崩溃
非端到端训练：半真实搜索仍需额外微调步骤

综上所述，目前的 Search Agent 训练非常昂贵，耗时，且不稳定。

如何能够降低训练成本与训练时间，同时能够稳定地训练 Search Agent 呢？

面对这些问题，我们首先进行了对于 LLM 依赖自身世界知识所能达到的效果的上限的探究。我们利用 structured prompt 诱发 LLM 自发地利用世界知识，并且通过 pass@k 证明了其极高的上限。受此启发，我们尝试用 RL 进一步强化模型利用自身世界知识的能力，探索 SSRL 的效果。在此基础上，我们首次在 LLM Agent 领域提出 Sim2Real，并验证 SSRL 训练的模型在真实场

最低0.47元/天解锁文章