UltraFeedback:大规模、细粒度、多样化的偏好数据集
项目介绍
UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集,专为训练强大的奖励模型和批评模型而设计。该数据集收集了来自多个资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN)的约 64,000 个提示,并通过这些提示查询多个大型语言模型(LLMs),生成每个提示的 4 种不同响应,总计 256,000 个样本。为了收集高质量的偏好和文本反馈,UltraFeedback 设计了细粒度的标注指令,涵盖了指令遵循、真实性、诚实性和帮助性四个方面。
项目技术分析
UltraFeedback 的核心技术在于其大规模、细粒度和多样化的数据收集与标注。通过从多个公开的高质量数据集中采样指令,并使用多样化的模型和原则生成响应,UltraFeedback 确保了数据集的广泛覆盖和高质量。此外,UltraFeedback 还提供了数值和文本反馈,帮助研究人员在各个维度上评估响应的质量。
项目及技术应用场景
UltraFeedback 适用于强化学习从人类反馈(RLHF)研究,特别是奖励模型和批评模型的训练。其大规模和多样化的数据集可以用于构建约 340,000 个比较对,以训练奖励模型。此外,UltraFeedback 还可以用于评估和改进现有的 LLMs,通过提供细粒度的反馈来指导模型的改进方向。
项目特点
- 规模:UltraFeedback 包含 64,000 个提示和 256,000 个响应,提供了高质量的反馈,RLHF 研究人员可以进一步构建约 340,000 个比较对来训练奖励模型。
- 多样性:作为偏好数据集,多样性是 UltraFeedback 的核心要求。数据集从各种来源收集提示,并查询多样化的开源和知名模型,进一步增加了多样性。
- 高密度:UltraFeedback 提供数值和文本反馈,并编写了细粒度的标注文档,帮助在所有维度上评估响应。
UltraFeedback 不仅是一个数据集,更是一个强大的工具,帮助研究人员在 RLHF 领域取得突破。无论是训练新的奖励模型,还是改进现有的 LLMs,UltraFeedback 都能提供宝贵的资源和指导。立即访问 UltraFeedback,探索其无限潜力!