台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程

补充:

ChatGPT官方Blog:

  • ChatGPT官方Blog:http://openai.com/blog/chatgpt/
  • OpenAI在2022年11月30日发布:ChatGPT: Optimizing
    Language Models for Dialogue.
    (We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to
    InstructGPT, which is trained to follow aninstruction in a prompt and provide adetailed response.
    我们训练了一个名为ChatGPT的模型,它以对话的方式进行交互。对话格式使ChatGPT能够回答后续问题,承认错误,挑战不正确的前提,并拒绝不适当的任务。ChatGPT是InstructGPT的兄弟模型,ChatGPT经过训练可以按照提示执行指令,并提供详细的响应。)ChatGPT可以回答问题(喜欢标号123)、写代码、翻译、帮助改正语法错误
    请添加图片描述
    训练步骤:
  1. 收集演示数据并训练一个受监督的策略。(从prompt数据集中抽取prompt。标签器展示了期望的输出行为。这些数据用于使用监督学习微调gpt-3.5。 )
  2. 收集比较数据并训练一个reward奖励模型。(一个prompt和几个模型输出被采样。标签器将输出从最好到最差进行排序。这些数据被用来训练我们的奖励模型。)
  3. 使用PPO强化学习算法针对奖励模型优化策略。(从数据集中采样一个新的prompt。PPO模型由有监督策略初始化。策略生成一个输出。奖励模型为输出计算奖励。奖励用于使用PPO更新策略。 )

ChatGPT未公布论文——根据兄弟模型InstructGPT论文进行猜想:

  • InstructGPT:《Training language models to follow instructions with human feedback》:https://arxiv.org/abs/2203.02155
  • GPT = Generative Pre-trained Transformer

(1)Chat GPT的學習四階段

1.學習文字接龍

GPT输出每一次都是不一样的,有随机性的。
请添加图片描述
请添加图片描述
请添加图片描述
缺点:每次输出都不同,导致后续接的话不符合我们的想法。
请添加图片描述
如何引導GPT產生有用的輸出呢?

2.人類老師引導文字接龍的方向

请添加图片描述
让GPT以後多看這些有益的文句,知道人类思考方向,减少阅读学习網路上的。
GPT不需要窮盡所有的問题·我們只是要告訴GPT人類的偏好,每种类型提供几个范例就足够。

3.模仿人類老師的喜好

公布ChatGPT的API,很多人去使用,可以收集这些问题,让ChatGPT产生问题答案,雇佣人类标注哪些答案好/差,人类老师只需要评价哪个比哪个好。
训练Teacher Model,需要输出分数,目的是:模仿老师评分标准。
请添加图片描述

4.用增強式學習向模擬老師學習

增強式學習:調整參數·得到最大的Reward,目的:希望GPT输出在Teacher Model中给予高分
请添加图片描述
请添加图片描述

(2)ChatGPT仍不是完美的,不足

简单的问题+没用的话。

ChatGPT总结:GPT 社會化的過程

请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值