ChatGPT (可能)是怎么炼成的

最新推荐文章于 2024-09-30 11:46:51 发布

河南老♂乡唐可可

最新推荐文章于 2024-09-30 11:46:51 发布

阅读量7.6k

点赞数 1

分类专栏： # 自然语言处理文章标签： chatgpt 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SGDBS233/article/details/128986652

版权

自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

学习自李宏毅老师的课https://www.youtube.com/watch?v=e0aKI2GGZNg

1.学习文字接龙

学习方式

在这里插入图片描述
GPT只需要在网上阅读大量的句子，不需要人工标注即可学习到大量句子接龙的知识

然而实际上，“你好”后面可以接的字有很多。实际上，GPT学的就是一个“概率分布”。然后按照概率分布，选一个字出来。比如下图中，“美”的出现概率就很高。
在这里插入图片描述

句子接龙的作用

实际上，学会了句子接龙，就可以回答一些问题。
比如下面这个问题，就可以变成“台湾最高的山是”，这个空缺的句子，然后让GPT去接龙。
在这里插入图片描述
然而这样是有缺陷的，比如它在网上恰好看到了一个地理试卷…
那么“GPT给你出了一道地理题”这种情况也是有可能发生的。

2.人类老师引导文字接龙方向

由人类来标注这些接龙的可能答案，以及限定GPT读取网上的内容。
不需要穷举标注所有答案，只需要告诉GPT人类的希望它生成的答案类型。
在这里插入图片描述

3.模仿人类老师的喜好

openAI开放了它的GPT API，所有人都可以直接调用。而GPT对问题的答案具有随机性，这时调用它的用户就充当了人类老师的作用。通过用户的反馈，openAI就知道人类更希望它产生那个答案。
在这里插入图片描述

比如点击上图的那个“Regenerate response”，就相当于告诉它人类对此类回答不满意。

接下来用这些数据训练一个“模仿人类老师”的模型Teacher Model，用这个模型来给chatGPT的回答打分。
在这里插入图片描述

4.用增强学习像模拟老师学习

当有人问出“世界上最高的山是那座？”的时候，GPT可能生成了一个“世界上最深的海又在哪里？”。这对于句子接龙来说，显然是个非常好的结果，但是对于问问题的人来说显然并不是:(。那么GPT会先把这个结果送给Teacher Model来打分。
那么理想情况下Teacher Model应该会给低分，这个低分就相当于增强学习中的Reward。这时就根据增强学习技术，去调整GPT生成回答的参数，以此尽量来获得高分。
在这里插入图片描述

经过多次调整后，GPT就会大概率生成人类想要它输出的答案了
在这里插入图片描述

GPT的缺陷

如何找到GPT的缺陷？
比如说问一些没用的问题，此类问题缺少人类老师的引导，那么GPT就有很大的可能性会答错。
在这里插入图片描述
比如这下直接给GPT干懵了:)。

总结

chatGPT就是GPT的社会化！
在这里插入图片描述

河南老♂乡唐可可

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

河南老♂乡唐可可 CSDN认证博客专家 CSDN认证企业博客

码龄7年

137: 原创

5万+: 周排名

93万+: 总排名

10万+: 访问

: 等级

1639: 积分

60: 粉丝

108: 获赞

39: 评论

314: 收藏

私信

关注

热门文章

分类专栏

机器学习 1篇
自然语言处理 3篇
推荐算法 6篇
算法竞赛 23篇
Python 12篇
爬虫 1篇
线性代数 1篇
Processing 3篇
Unity
git 2篇

最新评论

利用python统计excel中的数据
Komorebi610: 统计excel中，这一列的总数怎么弄啊
Python tkinter库
daighief: 好臭的教学
d3比例尺scaleLinear和坐标轴的使用
LXyanyan: 补充一下。如果想要调整图形的位置，用d3.select(". 类名")与其他标签绑定，就能通过调整标签从而调整图形位置
Python list及切片操作详解
Youngvans: 谢谢老板
【CodeForces】1608C Game Master题解
L_Clm: 假如第n − 1个人可以胜出,那么第n − 2个人才有可能胜出。因为第n − 1个人可以击败除了第n个人之外的所有人,并且利用它们的能力值,也无法击败第n人,那么第n − 2个人也铁定无法击败n 这句话是不是有问题，怎么读不顺口

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。