ChatGPT原理学习

参考

参考视频

GPT1

在这里插入图片描述
曾经2018年BERT很火。其实GPT也有了。
区别:BERT:完形填空:中间扣空了预测;GPT:预测未来

GPT1:先要有个预训练模型,然后基于具体的应用做fine-tune(下游任务做微调),才能用

GPT2

不搞fine-tune了,直接搞个大模型,做所有的事情。
zero-shot
one-shot
few-shot
在这里插入图片描述
给个任务描述,给个例子,prompt,就能得出结果。很像人的一个理解过程,理解自己要干什么事情。

ChatGPT

在这里插入图片描述
需要学习人的逻辑(商业化,不能直接胡说八道,有些话不能说)
例子:
在这里插入图片描述

强化学习

在这里插入图片描述

在这里插入图片描述
奖励模型(让模型知道什么是好的回答)
例子:模型输出4种回答。标注员标好了每种回答的分数是多少。损失函数:让分高(好的回答)跟分低(坏的回答)的差距大。

在这里插入图片描述
强化学习无限迭代:
输入问题 – PPO模型输出(回答的问题) – 过奖励模型 – 输出分数是高是低 – 反馈到PPO模型迭代

在这里插入图片描述

奖励模型怎么更新

在这里插入图片描述

  • 得分要高
  • 与标注结果的差异要低
  • 泛化能力要高(在不同的下游任务的表现也要做的不错)

SFT:有监督模型
RL:强化学习模型
两个模型差异要小。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值