【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理

AI大模型知识分享

已于 2024-10-06 17:39:46 修改

阅读量840

点赞数 26

文章标签：语言模型 gpt 人工智能开源 pytorch 大模型 ai

于 2024-09-09 13:51:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIDAMOXING/article/details/142057049

版权

ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。

OpenAI GPT: 通过transformer decoder学习出来一个语言模型，不是固定的，通过任务 fine-tuning,用transfomer代替ELMo的LSTM。

OpenAI GPT其实就是缺少了encoder的transformer：当然也没了encoder与decoder之间的attention。

OpenAI GPT虽然可以进行fine-tuning,但是有些特殊任务与pre-training输入有出入，单个句子与两个句子不一致的情况，很难解决，还有就是decoder只能看到前面的信息。

GPT适用于生成任务（自回归语言模型，任务更难但潜力更大）， BERT适合判别。

GPT1大概1亿参数，BERT-base类似， BERT-large大概3.4亿

类似GPT2大概13亿参数

True LM （预训练没有句子级别任务）

在这里插入图片描述

有监督微调时：

拿Transformer Encoder的输出的最后一个向量，送入前馈网络+Softmax

下游任务损失 + alpha 预训练损失

初始词元，间隔词元，抽取词元，构成输入序列，Transformer抽取特征，送入线性层，分类

四个任务

分类：句子A
蕴含：句子A, 句子B假设， True， False, None, 3分类
相似性： Text1，Text2，相不似相似True/False；交换顺序Text2，Text1，相不似相似True/False（单向的，交换顺序不一样，有必要）。抽取特征相加，线性，分类
多选择（QA，摘要）：一个上下文，多个答案, 分别用Transformer编码，多分类

Bert-Base对标GPT1, 12层，768维，12头

WordsCorpus 800M words

如果您也对AI大模型感兴趣想学习却苦于没有方向👀

小编给自己收藏整理好的学习资料分享出来给大家💖

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码关注免费领取【保证100%免费】🆓

在这里插入图片描述

AI大模型知识分享

关注

26
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。