ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!...

导读

作为ChatGPT的姊妹模型,InstructGPT的核心技术和ChatGPT有很多相通之处。参透InstructGPT的核心技术细节,有助于研究者们在ChatGPT方向上走得更远。

具体来看,一味地让语言模型变大并不意味着它们能更好地遵循用户的意图。大语言模型可能会产生虚假有害的,或是对用户毫无帮助的输出。这些模型并不能匹配用户意图。去年9月,OpenAI的研究科学家Long Ouyang和Scale AI工程经理Aerin在Scale Virtual Events社区(简称Scale)发表了题为「OpenAI’s InstructGPT: Aligning Language Models With Human Intent」的演讲,他们探索了一种新的途径,通过基于人类反馈的微调,使语言模型在广泛的任务中与用户的意图保持一致。本文整理了报告中关于InstructGPT技术细节。

aacb7f0cd07033ed2859374958590612.png

Long Ouyang(演讲嘉宾)

OpenAI研究科学家,斯坦福大学认知心理学博士,目前从事human-in-the-loop mechain learning。他是《Training Language models to follow instructions with human feedback》一文的主要作者,并且协助建立了GPT的变体,如InstructGPT和WebGPT,本次重点讨论了他在InstructGPT方面的工作。InstructGPT是GPT-3的一个变体,具有更好的遵循人类指令的能力,并将继续探索如何利用人类的反馈,“使GPT-3更加有用、真实和无害”。

视频链接:

https://exchange.scale.com/public/videos/openais-instructgpt-aligning-language-models-with-human-intent-2022-09-13

46bab8872cdc2287655c2f4753c15668.png

要点速览:

  • 从业人员需要确保机器学习模型优化人们所关心的功能,而非与用户意图不匹配的代理函数(proxy function)

  • InstructGPT 旨在使 GPT-3 实现「助人、真实、无害」的目标,重点匹配人们的实际偏好

  • 和最初GPT-3的鹦鹉学舌相比,InstructGPT模型能够感知到用户给出指令的意图,并尽力而为,更像是为我们工作的“助手”

  • 尽管模型本身绝大多数是在英语上训练的,I<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值