GPT、GPT-2、GPT-3论文精读笔记

最新推荐文章于 2024-03-07 16:24:50 发布

NElks

最新推荐文章于 2024-03-07 16:24:50 发布

阅读量739

点赞数

分类专栏：深度学习文章标签： gpt gpt-3 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54625820/article/details/134560977

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

视频：GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

MAE论文：把bert用回计算机视觉领域

CLIP论文：打通文本和图像

GPT

论文：Improving Language Understanding by Generative Pre-Training

半监督学习：使用没有标号的文本进行预训练一个语言模型，用有标号的数据训练一个微调模型

Bert是Transformer的encoder（既能用前面也能用后面特征），GPT是Transformer的decoder部分（带掩码的注意力机制，因为任务是预测下一个词，只能用来自前面的特征）

Bert是带掩码的语言模型，完形填空（挖掉中间的词用上下文来预测该词）

无标号数据上做预训练

目标函数1：

给定 k 个词预测下一个词，如何预测：

和Bert的区别不只是编码器解码器，更主要的区别是目标函数的选取，GPT的目标函数更难

有标号数据上做微调

标准的分类目标函数2：

将语言模型作为微调的辅助，得到的目标函数：

接下来考虑怎么把NLP中很多不一样的子任务表示成序列+标号的形式，调整数据而不调整模型，预训练好Transformer模型后在做下游任务时候不需要改变模型结构（GPT跟以往相比的特点）

实验部分

12层Transformer的decoder 每层维度768（跟bert-base一样）

在预训练语言模型时是在自然文本上训练，但在下游任务时对其输入进行了构造（开始结束分隔符）

GPT-2

论文：Language Models are Unsupervised Multitask Learners

改进对每一个下游任务都需要微调（在每一个任务上还要提供部分样本用于训练）的缺点，好处是训练一个模型在任何地方都能用

zero-shot

做到下游任务时，不需要任何标注信息，也不需要训练模型，使用 prompt

采样策略

预测出下一个词的概率，不一定选择概率最大的可能希望具有多样性

参数 Temperature、Top k、Top p

Temperature = 1：不变，softmax 选出概率最大的数

Temperature越大，越多样

Top k：采样前k个词

Top p：累加概率达到该概率就停止采样，一般95%

GPT-3

论文：Language Models are Few-Shot Learners

在做下游任务时不做任何梯度更新

核心的下游任务方式：

Zero-shot
One-shot：给出一个参考的问题和回答，要GPT根据给出的参考回答一个新问题
Few-shot

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GPT、GPT-2、GPT-3论文精读笔记

MAE论文：把bert用回计算机视觉领域CLIP论文：打通文本和图像。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。