ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

在这里插入图片描述

文章主要内容总结

本文提出了一种名为ZEROSEARCH的强化学习框架,旨在解决现有大语言模型(LLMs)在利用真实搜索引擎进行搜索能力训练时面临的两大挑战:文档质量不可控和API成本过高。该框架通过以下方式实现创新:

  1. 监督微调构建检索模块:通过轻量级监督微调将LLM转化为检索模块,使其能够根据查询生成相关文档和噪声文档,实现对文档质量的可控模拟。
  2. 基于课程的训练策略:在强化学习训练过程中,采用逐步降级文档质量的课程式展开策略,使模型在逐渐增加的挑战中提升推理能力。
  3. 高效可扩展的训练机制:无需依赖真实搜索引擎的API,通过GPU并行计算加速模拟文档生成,大幅降低训练成本。

实验结果表明,ZEROSEARCH在单跳和多跳问答基准测试中均优于依赖真实搜索引擎的基线方法。例如,70亿参数的检索模块性能可与谷歌搜索媲美,140亿参数模块甚至超越真实搜索。此外,该框架对不同参数规模的基础模型和指令微调模型具有良好的泛化能力,并兼容PPO、GRPO等多种强化学习算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值