引言
在RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)阶段,所需的人类反馈数据量取决于多个因素,包括模型的规模、任务的复杂度、预期的性能水平以及可用资源等。
一、一般数据量范围
- 小型实验:
- 数千条反馈数据: 对于研究性质的小规模模型或简单任务,可能只需要几千条人类反馈数据即可训练出初步可用的奖励模型。
- 大规模模型(如GPT系列):
- 数万到数十万条反馈数据: 在训练大型语言模型时,通常需要更大量的人类反馈数据来充分捕捉人类的偏好和多样性。
二、影响数据需求量的因素
-
1.模型规模:
- 参数数量:模型参数越多,可能需要更多的数据来避免过拟合,充分训练模型。
-
2.任务复杂度:
- 简单任务:如基本的对话生成,可能需要较少的数据。
- 复杂任务:如涉及专业领域知识、道德判断或多轮对话,可能需要更多的数据来覆盖各种场景。
-
3.数据质量:
- 高质量反馈:精准且一致的人类反馈可以提高训练效率,可能减少对数据量的需求。
- 评估者专业性:专业评估者提供的反馈可能更加可靠。
-
4.多样性和覆盖度:
- 提示(Prompts)多样性:涵盖不同主题、风格和难度的提示需要更多的数据。
- 回复的多样性:为了让模型能够处理不同类型的回复,需要更多的反馈样本。
-
5.预期性能水平:
- 基础性能:达到基本可用的性能可能需要较少的数据。
- 高性能和安全性:要在性能和安全性上达到更高标准,需要更多的数据进行细致的调整。
三、实际案例和数据量参考
- OpenAI的实践:
- InstructGPT模型:
- 监督微调数据:约13,000条由人工撰写的高质量示例(Prompt-Response对)。
- 奖励模型训练数据:使用了约33,000对人类偏好数据(比较两个模型回复,标注偏好)。
- GPT-4的训练:
- 数据规模更大:涉及数十万条甚至更多的人类反馈数据,但具体数字未公开。
- InstructGPT模型:
- 小场景研究:
- 小规模实验: 使用数千条人类反馈数据,在小规模场景下具有有效性。