经典论文介绍：GPT的由来，Improving Language Understanding by Generative Pre-Training

最新推荐文章于 2024-09-24 15:46:40 发布

才能我浪费

最新推荐文章于 2024-09-24 15:46:40 发布

阅读量1k

点赞数

分类专栏： AI应用文章标签： gpt 深度学习机器学习

本文链接：https://blog.csdn.net/hawkman/article/details/130100158

版权

AI应用专栏收录该内容

25 篇文章

订阅专栏

《Improving Language Understanding by Generative Pre-Training》是谷歌AI研究团队在2018年提出的一篇论文，作者提出了一种新的基于生成式预训练的自然语言处理方法（Generative Pre-training Transformer，GPT），在多项下游任务中均取得了优秀的效果。

论文地址：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT模型结构

GPT使用了Transformer模型结构，但相较于BERT，它仅使用了单向的Transformer编码器，因此只能考虑当前单词之前的上下文。GPT的预训练任务是生成式的，即给定一段自然语言文本的前缀，预测该文本的下一个单词。具体而言，GPT使用了一个基于Transformer的自回归语言模型（autoregressive language model），在预训练过程中，它需要生成下一个单词，并根据生成的结果计算损失函数，不断优化模型的参数。

预训练任务

GPT的预训练任务是通过单向Transformer模型进行生成式的自回归语言建模。给定一个长度为N的文本序列，GPT的目标是最大化该序列的条件概率。具体而言，在预训练过程中，模型首先接收到输入文本的前k个单词，然后生成第k+1个单词的概率分布，选取概率最高的单词作为预测结果，并将其添加到输入序列的末尾。这个过程会不断重复，直到生成整个文本序列为止。