谷歌最新论文 | 高效改进大模型

Google 提出了针对LLMs的高效探索

论文页面: https://huggingface.co/papers/2402.00396

展示了通过高效探索在收集人类反馈以改进大型语言模型方面的实质性好处。在我们的实验中,一个代理顺序地生成查询,同时将一个奖励模型拟合到接收到的反馈中。我们表现最佳的代理使用双 Thompson 采样来生成查询,不确定性由一个认知神经网络表示。我们的结果表明,高效探索使得能够在远少于查询数量的情况下达到高水平的性能。此外,不确定性估计和探索方案的选择都起着关键作用。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值