chatGPT 背后的技术之 GPT3

祖国翔

已于 2023-06-20 22:05:59 修改

阅读量437

点赞数 2

分类专栏：机器学习文章标签： chatgpt 人工智能

于 2023-06-18 23:12:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42568832/article/details/131277279

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

chatGPT是由openAI 公司发布的大型语言对话机器学习模型，因为其强大的功能，可以帮助编程，可以咨询问题，可以检查语法错误等等，而在最近半年火爆全网。

chatGPT 背后的技术是 GPT3.5，其本质是大型预训练语言模型。

GPT3.5 是在 GPT3 的基础上进行了微调（fine-tuning），具体进行了什么微调我们在后面的文章中会介绍，今天我们先介绍GPT3.

GPT3 的详细介绍在 Language Models are Few-Shot Learners 这篇论文中，https://arxiv.org/abs/2005.14165 点击网页链接中的Download 下的 PDF 就可以下载论文原文。

论文中的重点如下：

GPT3 的网络结构和 GPT2 是一样的（GPT2 会在后面的文章中详细介绍），但GPT3 的模型尺寸比GPT2大两个数量级。

和GPT2的主要不同是，GPT3 使用了 Sparse Transformer。

训练的数据集进行了一些处理，增加了一些可信度高的文本的学习次数。

GPT3 可以处理多种文本相关的任务，如填词，回答问题，阅读理解等，不再需要对特性任务进行分别训练，可以认为是在通用人工智能的道路上迈出了举足轻重的一步。

GPT3 有 1750 亿个参数。

GPT3 没有进行微调（fine-tuning），就可以在很多任务中表现出很好的效果。针对任务进行微调，影响了模型的通用性，也和大模型在预训练中尽可能的吸收知识的初衷不符。这样做的原因还有就是人在学习处理大部分新的文字类任务时，并不需要接受这类任务的大量数据进行专门的训练便可完成。

大型预训练模型学习了大量技能和模式识别的能力，这些能力会在推理时识别出要完成的任务是什么。也就是说，对任务的理解是其能力的一部分。

下图展示了预训练模型是怎样能学到背景知识的。

下图展示了，无实例，单个示例，多个示例和训练微调（fine-tuning）的区别，GPT3 没有进行微调。

下图展示了训练所用的数据，Common Crawl 是一个抓取网络内容的存储库，数据量很大，只用了其中的44%Common Crawlhttps://commoncrawl.org/

图片来源：论文 Language Models are Few-Shot Learners

祖国翔,

于上海

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
chatGPT 背后的技术之 GPT3

chatGPT是由openAI 公司发布的大型语言对话机器学习模型，因为其强大的功能，可以帮助编程，可以咨询问题，可以检查语法错误等等，而在最近半年火爆全网。GPT3 可以处理多种文本相关的任务，如填词，回答问题，阅读理解等，不再需要对特性任务进行分别训练，可以任务是在通用人工智能的道路上迈出了举足轻重的一步。GPT3 的网络结构和 GPT2 是一样的（GPT2 会在后面的文章中详细介绍），但GPT3 的模型尺寸比GPT2大两个数量级。训练的数据集进行了一些处理，增加了一些可信度高的文本的学习次数。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。