HelpSteer2: Open-source dataset for training top-performing reward models

22 篇文章 0 订阅
2 篇文章 0 订阅

本文是LLM系列文章,针对《HelpSteer2: Open-source dataset for training top-performing reward models》的翻译。

HelpSteer2:用于训练表现最佳的奖励模型的开源数据集

摘要

高质量的偏好数据集对于训练奖励模型至关重要,该模型可以有效地指导大型语言模型(LLM)生成与人类偏好一致的高质量响应。随着LLM变得更强和更好地协调,需要更新许可的偏好数据集,如Open Assistant、HHRLHF和HelpSteer,以保持对奖励建模的有效性。从GPT-4等专有LLM中提取偏好数据的方法对模型提供商的商业使用有限制。为了提高生成的响应和属性标记质量,我们发布了HelpSteer2,这是一个许可的偏好数据集(CC-BY-4.0)。使用在HelpSteer2上训练的强大内部基础模型,截至2024年6月12日,我们能够在Reward Bench的主要数据集上获得SOTA分数(92.0%),优于目前列出的开放和专有模型。值得注意的是,HelpSteer2仅由一万个响应对组成,比现有的偏好数据集(例如,HH-RLHF)少一个数量级,这使得它在训练奖励模型方面非常高效。我们的大量实验表明,使用HelpSteer2训练的奖励模型在调整LLM方面是有效的。特别是,我们提出了SteerLM 2.0,这是一种模型对齐方法,可以有效地利用我们的奖励模型预测的丰富的多属性分数。HelpSteer2位于https://huggingface.co/datasets/nvidia/HelpSteer2代码在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值