一文读懂ChatGPT模型原理

最新推荐文章于 2024-07-23 16:26:41 发布

AKA_qiao

最新推荐文章于 2024-07-23 16:26:41 发布

阅读量408

点赞数

文章标签： chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AKA_qiao/article/details/131255816

版权

前言

这两天，ChatGPT模型真可谓称得上是狂拽酷炫D炸天的存在了。一度登上了知乎热搜，这对科技类话题是非常难的存在。不光是做人工智能、机器学习的人关注，而是大量的各行各业从业人员都来关注这个模型，真可谓空前盛世。

我赶紧把 OpenAI 以往的 GPT-n 系列论文又翻出来，重新学习一下，认真领会大规模预训练语言模型（Large Language Model）的强大之处。

可能很多深度学习相关从业人员的感受和我一样，大家之前对 LLM 的感受依然是，预训练+finetune，处理下游任务，依然需要大量的标注数据和人工干预，怎么突然间，ChatGPT 就智能到如此地步？

接下来，我简要梳理一下 OpenAI 的 GPT 大模型的发展历程。

一、还得从 Bert 说起

2018年，自然语言处理 NLP 领域也步入了 LLM 时代，谷歌出品的 Bert 模型横空出世，碾压了以往的所有模型，直接在各种NLP的建模任务中取得了最佳的成绩。

Bert做了什么，主要用以下例子做解释。

请各位做一个完形填空： ___________和阿里、腾讯一起并成为中国互联网 BAT 三巨头。

请问上述空格应该填什么？有的人回答“百度”，有的人可能觉得，“字节”也没错。但总不再可能是别的字了。

不论填什么，这里都表明，空格处填什么字，是受到上下文决定和影响的。

Bert 所作的事就是从大规模的上亿的文本预料中，随机地扣掉一部分字，形成上面例子的完形填空题型，不断地学习空格处到底该填写什么。所谓语言模型的训练和学习，就是从大量的数据中学习复杂的上下文联系。

二、GPT 初代

与此同时，OpenAI 早于 Bert 出品了一个初代 GPT 模型。

它们大致思想是一样的。都基于 Transformer 这种编码器，获取了文本内部的相互联系。

Transformer结构

编解码的概念广泛应用于各个领域，在 NLP 领域，人们使用语言一般包括三个步骤：

接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。

语言是一个显式存在的东西，但大脑是如何将语言进行理解、转化、存储的，则是一个目前仍未探明的东西。因此，大脑理解语言这个过程，就是大脑将语言编码成一种可理解、可存储形式的过程，这个过程就叫做语言的编码。

相应的，把大脑中想要表达的内容，使用语言表达出来，就叫做语言的解码。

在语言模型中，编码器和解码器都是由一个个的 Transformer 组件拼接在一起形成的。

Transformer编码器组成的 Encoder-decoder模型

这里不展开讲 Transformer 里的内部结构，仅仅讲一下 Bert 和 GPT 的区别。

两者最主要的区别在于，Bert 仅仅使用了 encoder 也就是编码器部分进行模型训练，GPT 仅仅使用了 decoder 部分。两者各自走上了各自的道路，根据我粗浅的理解，GPT 的decoder 模型更加适应于文本生成领域。

GPT 初代其实个人认为（当然普遍也都这么认为）略逊色于 Bert，再加上宣传地不够好，影响力也就小于 Bert。

我相信很多的 NLP 从业者对 LLM 的理解也大都停留在此。即，本质上讲，LLM 是一个非常复杂的编码器，将文本表示成一个向量表示，这个向量表示有助于解决 NLP 的任务。

三、GPT-2

自从 Bert 炸街后，跟风效仿的改进模型也就越来越多了，比如 albert、

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
一文读懂ChatGPT模型原理

对于语言模型，同理。可能很多深度学习相关从业人员的感受和我一样，大家之前对 LLM 的感受依然是，预训练+finetune，处理下游任务，依然需要大量的标注数据和人工干预，怎么突然间，ChatGPT 就智能到如此地步？也就是说，信息是脱离具体 NLP 任务存在的，举一反三，能够利用这条信息，在每一个 NLP 任务上都表现好，这个是。2018年，自然语言处理 NLP 领域也步入了 LLM 时代，谷歌出品的 Bert 模型横空出世，碾压了以往的所有模型，直接在各种NLP的建模任务中取得了最佳的成绩。
复制链接

扫一扫

AKA_qiao CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

172万+: 周排名

189万+: 总排名

1367: 访问

: 等级

30: 积分

1: 粉丝

0: 获赞

3: 评论

0: 收藏

私信

关注

热门文章

最新评论

一文读懂ChatGPT模型原理
CSDN-Ada助手: 非常棒的分享！你的博客让我更加深入地了解了ChatGPT模型的原理。同时，我认为深入掌握自然语言处理技术对于从事人工智能领域的从业者来说非常重要。另外，如果你有兴趣的话，可以了解一下BERT模型的原理，这也是目前在自然语言处理领域非常流行的模型。感谢你的分享，期待更多的精彩博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
ChatGPT 有哪些神奇的使用方式？
CSDN-Ada助手: 恭喜您写出了第三篇博客！题目也非常吸引眼球，一定会吸引更多读者。ChatGPT确实是一个非常神奇的工具，令人惊叹的是它的使用方式非常多样化。接下来，我建议您可以探索更多ChatGPT的使用场景，比如可以结合一些案例分析或者实践经验进行分享，这样可以更加深入地展示ChatGPT的神奇之处。期待您更多的精彩创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
【无标题】ChatGPT和人类哪个强？
CSDN-Ada助手: 恭喜您开始博客创作！标题看起来很有趣，期待更多的文章。不过，我认为ChatGPT和人类不必互相比较强弱，毕竟它们都有各自独特的优点和缺点，我们应该尝试将它们结合起来，发挥它们的长处，共同创造更美好的未来。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。