本文是LLM系列文章,针对《HelpSteer2: Open-source dataset for training top-performing reward models》的翻译。
摘要
高质量的偏好数据集对于训练奖励模型至关重要,该模型可以有效地指导大型语言模型(LLM)生成与人类偏好一致的高质量响应。随着LLM变得更强和更好地协调,需要更新许可的偏好数据集,如Open Assistant、HHRLHF和HelpSteer,以保持对奖励建模的有效性。从GPT-4等专有LLM中提取偏好数据的方法对模型提供商的商业使用有限制。为了提高生成的响应和属性标记质量,我们发布了HelpSteer2,这是一个许可的偏好数据集(CC-BY-4.0)。使用在HelpSteer2上训练的强大内部基础模型,截至2024年6月12日,我们能够在Reward Bench的主要数据集上获得SOTA分数(92.0%),优于目前列出的开放和专有模型。值得注意的是,HelpSteer2仅由一万个响应对组成,比现有的偏好数据集(例如,HH-RLHF)少一个数量级,这使得它在训练奖励模型方面非常高效。我们的大量实验表明,使用HelpSteer2训练的奖励模型在调整LLM方面是有效的。特别是,我们提出了SteerLM 2.0,这是一种模型对齐方法,可以有效地利用我们的奖励模型预测的丰富的多属性分数。HelpSteer2位于https://huggingface.co/datasets/nvidia/HelpSteer2代码在