GPT详解

最新推荐文章于 2025-04-07 08:01:44 发布

dzzxjl

最新推荐文章于 2025-04-07 08:01:44 发布

阅读量2.1k

点赞数

分类专栏： # 搜索与NLP 文章标签： nlp

本站点用作笔记使用，如有侵权，请联系我进行删除，谢谢

本文链接：https://blog.csdn.net/dzzxjl/article/details/121346583

版权

搜索与NLP 专栏收录该内容

9 篇文章

订阅专栏

Improving Language Understanding by Generative Pre-Training
生成式的预训练
基于 Fine-tuning 的模式
GPT本质上就是用了语言模型的目标函数来优化和训练Transformer-Decoder
- Fine-tune 的目标函数
  - L2是task的目标函数
  - L1是语言模型的目标函数

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

GPT缺点

其实最主要的就是那个单向语言模型，如果改造成双向的语言模型任务估计也没有 Bert 太多事了

GPT-2

20190215
就是说首先把Transformer模型参数扩容，常规的Transformer Big包含24个叠加的Block，就是说这个楼层有24层高，GPT 2.0大干快上，加班加点，把楼层连夜盖到了48层，高了一倍，参数规模15亿，这个还是很壮观的，目前貌似还没有看到过Transformer楼层有这么高的模型。那么，为什么要扩容呢？这个只是手段，不是目的。真正的目的是：GPT 2.0准备用更多的训练数据来做预训练，更大的模型，更多的参数，意味着更高的模型容量，所以先扩容，免得Transformer楼层不够多的房间（模型容量）容纳不下过多的住户（就是NLP知识）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。