ChatGPT 核心技术大起底——InstructGPT：研究人类反馈数据比加大模型规模更重要！...

智源社区

于 2023-03-02 19:05:19 发布

阅读量4k

点赞数

文章标签： chatgpt

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/129311961

版权

InstructGPT是GPT-3的一个变体，通过基于人类反馈的微调，使其在广泛的任务中更好地匹配用户意图。与原始的GPT-3相比，InstructGPT更像一个助手，能够理解并执行任务。强化学习和人类反馈数据是InstructGPT的关键技术，表明在训练模型时，关注人类反馈比单纯增加模型规模更重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读

作为ChatGPT的姊妹模型，InstructGPT的核心技术和ChatGPT有很多相通之处。参透InstructGPT的核心技术细节，有助于研究者们在ChatGPT方向上走得更远。

具体来看，一味地让语言模型变大并不意味着它们能更好地遵循用户的意图。大语言模型可能会产生虚假有害的，或是对用户毫无帮助的输出。这些模型并不能匹配用户意图。去年9月，OpenAI的研究科学家Long Ouyang和Scale AI工程经理Aerin在Scale Virtual Events社区（简称Scale）发表了题为「OpenAI’s InstructGPT: Aligning Language Models With Human Intent」的演讲，他们探索了一种新的途径，通过基于人类反馈的微调，使语言模型在广泛的任务中与用户的意图保持一致。本文整理了报告中关于InstructGPT技术细节。

Long Ouyang（演讲嘉宾）

OpenAI研究科学家，斯坦福大学认知心理学博士，目前从事human-in-the-loop mechain learning。他是《Training Language models to follow instructions with human feedback》一文的主要作者，并且协助建立了GPT的变体，如InstructGPT和WebGPT，本次重点讨论了他在InstructGPT方面的工作。InstructGPT是GPT-3的一个变体，具有更好的遵循人类指令的能力，并将继续探索如何利用人类的反馈，“使GPT-3更加有用、真实和无害”。

视频链接：

https://exchange.scale.com/public/videos/openais-instructgpt-aligning-language-models-with-human-intent-2022-09-13