目录
1摘要
使语言模型更大并不能使它们更好地遵循用户的意图。例如,大型语言模型可能生成不真实的、有害的或对用户没有帮助的输出。换句话说,这些模型与它们的用户并不一致。在本文中,我们展示了一种方法,通过对人类反馈进行微调(核心idea),在广泛的任务中使语言模型与用户意图保持一致。从一组标注器编写的提示和通过OpenAI API提交的提示开始,我们收集了一个标注器演示所需模型行为的数据集,我们使用它来使用监督学习对GPT-3进行微调(步骤一)。然后我们收集模型输出排名的数据集,我们使用从人类反馈中使用强化学习来进一步微调(步骤二)这个监督模型。我们将生成的模型称为InstructGPT(名称)。在我们的提示分布的人工评估中,尽管参数少了100倍,但来自13 b参数的Inst