ChatGPT原理学习

最新推荐文章于 2024-07-25 00:08:05 发布

stevewongbuaa

最新推荐文章于 2024-07-25 00:08:05 发布

阅读量242

点赞数

文章标签： chatgpt 学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/waltonhuang/article/details/129711475

版权

参考

GPT1

在这里插入图片描述
曾经2018年BERT很火。其实GPT也有了。
区别：BERT：完形填空：中间扣空了预测；GPT：预测未来

GPT1：先要有个预训练模型，然后基于具体的应用做fine-tune（下游任务做微调），才能用

GPT2

不搞fine-tune了，直接搞个大模型，做所有的事情。
zero-shot
one-shot
few-shot
在这里插入图片描述
给个任务描述，给个例子，prompt，就能得出结果。很像人的一个理解过程，理解自己要干什么事情。

ChatGPT

在这里插入图片描述
需要学习人的逻辑（商业化，不能直接胡说八道，有些话不能说）
例子：

强化学习

在这里插入图片描述

在这里插入图片描述
奖励模型（让模型知道什么是好的回答）
例子：模型输出4种回答。标注员标好了每种回答的分数是多少。损失函数：让分高（好的回答）跟分低（坏的回答）的差距大。

在这里插入图片描述
强化学习无限迭代：
输入问题 – PPO模型输出（回答的问题） – 过奖励模型 – 输出分数是高是低 – 反馈到PPO模型迭代

在这里插入图片描述

奖励模型怎么更新

在这里插入图片描述

得分要高
与标注结果的差异要低
泛化能力要高（在不同的下游任务的表现也要做的不错）

SFT：有监督模型
RL：强化学习模型
两个模型差异要小。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ChatGPT原理学习

例子：模型输出4种回答。标注员标好了每种回答的分数是多少。损失函数：让分高（好的回答）跟分低（坏的回答）的差距大。输入问题 – PPO模型输出（回答的问题） – 过奖励模型 – 输出分数是高是低 – 反馈到PPO模型迭代。给个任务描述，给个例子，prompt，就能得出结果。GPT1：先要有个预训练模型，然后基于具体的应用做fine-tune（下游任务做微调），才能用。区别：BERT：完形填空：中间扣空了预测；不搞fine-tune了，直接搞个大模型，做所有的事情。奖励模型（让模型知道什么是好的回答）
复制链接

扫一扫

博客等级

码龄13年

205
原创

195
点赞

332
收藏

73
粉丝

关注

私信

热门文章

分类专栏

最新评论

SchedulerLock 分布式锁原理
ggcjdsslhtbjw: 如果发现lock_util小于等于当前时间（锁已经无效），就可以去update；多个机器同时update，只有一个机器可以update成功(修改行数>0)，实现了锁的抢占。 ============= 如果服务器之间时间相差很大这种锁是不是就有问题了
[译]MQTT 通配符
serene94: 推荐一款优秀的MQTT GUI客户端，可视化管理软件：MQTT Assistant，官网地址：http://www.redisant.cn/mqtt
搜索引擎：Frame of Reference 和 Roaring Bitmaps
不知名小佬: 拉链是什么东西
Mysql MVCC 原理 low_limit_id ReadView
东南吴彦祖: 可以可以，以前理解了没有加深记忆。今天想起来就看到这个文章，一下子就回忆起来了
SchedulerLock 分布式锁原理
混分巨兽石头人: 赞奥

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。