ChatGPT笔记

一,ChatGPT的前世今生

GPT-1/2/3/3.5/Instruct/Chat

GPT:基于Transformer Decoder预训练 + 微调/Finetune
GPT-2:基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习)
  仅通过大规模多领域的数据预训练,让模型在Zero-shot Learming的设置下自己学会解决多任务的问题
GPT-3 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空
  舍弃fine-tuning,使用40T的数据进行完形填空训练:给前文预测单词,有一千多亿的参数。只需将自然语言的提示信息(prompt)和任务示例(demonstration)作为上下文输入给GPT-3,它就可以在零样本或小样本的情况下执行任何NLP任务
GPT-3.5 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空 + 微调/Finetune
  模型使用与 GPT-3 相同的预训练数据集,但进行了额外的微调,从而更擅长以下两点:更擅长上下文学习、对话可以生成更加符合人类期待的反馈
InstructGPT GPT-3 + PPO算法finetune
  基于RLHF手段微调的GPT。监督学习让GPT3有一个大致的微调方向,然后用RL中的PPO算法来更新微调过的GPT3的参数。对InstructGPT的简单理解,可以是基于人类反馈的强化学习(RLHF)手段微调的GPT3。
  InstructGPT 通过将模型的目标与人类用户可能喜欢的内容“对齐”来解决这个问题。更真实、更诚实的答案,更少的毒性,等等。
ChatGPT GPT-3.5 + PPO算法finetune = Transformer + prompt学习 + RLHF + PPO
  在GPT3.5的基础上,先通过基于人类偏好定义奖励函数,再基于奖励函数通过PPO持续优化。

二,一些概念

  ChatGPT是InstructGPT的兄弟模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应

  所谓的语言模型的训练,其实就是让模型调整候选句对应的概率,使我们人类希望输出的候选句的概率尽可能大,而不希望输出的概率尽可能小。

Fine-tuning与Prompting的不同
Fine-tuning中:是预训练语言模型“迁就“各种下游任务。具体体现就是通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务。总之,这个过程中,预训练语言模型做出了更多的牺牲
Prompting中:是各种下游任务“迁就“预训练语言模型。我们需要对不同任务进行重构,使得它达到适配预训练语言模型的效果。总之,这个过程中,是下游任务做出了更多的牺牲

RLHF:人类反馈的强化学习

InstructGPT训练过程:

  基于RLHF手段微调的GPT。InstructGPT的训练分为三个阶段(总体上结合了监督学习和强化学习,先是监督学习让GPT3有一个大致的微调方向,然后用RL中的PPO算法来更新微调过的GPT3的参数)。

  • 阶段1:利用人类的标注数据(demonstration data)去对GPT3进行有监督训练
      首先,OpenAI是先设计了一个prompt dataset,里面有大量的提示样本,给出了各种各样的任务描述
      其次,找了一个标注团队对这个prompt dataset进行标注(本质就是人工回答问题)
      最后,用这个标注过的数据集微调GPT3,这个微调好的GPT3我们称之为SFT模型(监督微调,全称Supervised fine-tuning,简称SFT),具备了最基本的预测能力

  • 阶段2:通过RLHF的思路训练奖励模型RM
      把微调好的SFT模型去回答prompt dataset某个问题,然后通过收集4个不同的SFT输出而获取4个回答,接着人工对这4个回答的好坏进行标注且排序,排序的结果用来训练一个奖励模型RM,具体做法就是学习排序结果从而理解人类的偏好

  • 阶段3:通过训练好的RM模型预测结果且通过PPO算法优化SFT模型策略
      具体做法是,再次让SFT模型去回答prompt dataset某个问题,然后此时不再让人工评估好坏,而是让阶段2训练好的奖励模型去给SFT模型的预测结果进行打分排序

参考:
July GPTN: ChatGPT通俗导论
chatgpt历程原理架构:chatgpt历程原理架构
图解Transformer

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一杯拿铁go

你的打赏是我更新最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值