GPTv1,2,3

最新推荐文章于 2024-02-21 11:18:15 发布

NINJA_xu

最新推荐文章于 2024-02-21 11:18:15 发布

阅读量706

点赞数

分类专栏： NLP 文章标签： nlp

原文链接：https://zhuanlan.zhihu.com/p/350017443

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

GPT : Generative Pre-trained Transforme，由OpenAI提出的非常强大的预训练语言模型。

在这里插入图片描述

GPT-1
1. 通过在无标签的数据上学习一个通用的语言模型，然后再根据特定任务进行微调。
2. 无监督预训练：使用了12个transformer[5]块的结构作为解码器，每个transformer块是一个多头的自注意力机制，然后通过全连接得到输出的概率分布。
3. 有监督微调：当得到无监督的预训练模型之后，我们将它的参数直接应用到有监督任务中。将token输入到训练好的预训练模型中，得到最终的特征向量h，在再通过一个全连接层预测结果y。
4. 有监督微调时候，训练的epoch为64 ，学习率为2.5*e^-4，这表明模型在无监督部分学到了大量有用的特征。
5. 结论：GPT-1在未经微调的任务上虽然也有一定效果，但是其泛化能力远远低于经过微调的有监督任务，说明了GPT-1只是一个简单的领域专家，而非通用的语言学家。
6. download
GPT-2
1. 使用无监督的预训练模型做有监督的任务。训练一个泛化能力更强的词向量模型，对比GPT1，只是使用了更多的网络参数和更大的数据集。
2. GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。
3. 在有些zero-shot的任务上的表现不错。但仍有空间，所以诞生GPT3。
4. download
GPT-3
1. GPT-3很强大的语言模型，仅仅需要zero-shot或者few-shot，GPT-3就可以在下游任务表现的非常好。在困难任务上如撰写人类难以判别的文章，甚至编写SQL查询语句，React或者JavaScript代码等表现很佳。
2. 理论上讲GPT-3也是支持fine-tuning的，但是fine-tuning需要利用海量的标注数据进行训练才能获得比较好的效果，但是这样也会造成对其它未训练过的任务上表现差，所以GPT-3并没有尝试fine-tuning。
3. 在大量的语言模型数据集中，GPT-3超过了绝大多数的zero-shot或者few-shot的state-of-the-art方法。
4. download
总结三个版本
1. GPT系列从1到3，通通采用的是transformer架构，可以说模型结构并没有创新性的设计。
2. GPT3通过海量的参数学习海量的数据，然后依赖transformer强大的拟合能力使得模型能够收敛。虽然大部分的任务GPT3效果很好，对于一些明显不在这个分布或者和这个分布有冲突的任务来说，GPT-3还是无能为力的。
3. GPT-3对AI领域的影响无疑是深远的，如此强大性能的语言模型的提出，为下游各种类型的NLP任务提供了非常优秀的词向量模型，在此基础上必将落地更多有趣的AI应用。

NINJA_xu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GPTv1,2,3

GPT : Generative Pre-trained Transforme，由OpenAI提出的非常强大的预训练语言模型。GPT-1通过在无标签的数据上学习一个通用的语言模型，然后再根据特定任务进行微调。无监督预训练：使用了12个transformer[5]块的结构作为解码器，每个transformer块是一个多头的自注意力机制，然后通过全连接得到输出的概率分布。有监督微调：当得到无监督的预训练模型之后，我们将它的参数直接应用到有监督任务中。将token输入到训练好的预训练模型中，得到最终
复制链接

扫一扫