基于Transformers的自然语言处理入门【四】-GPT

最新推荐文章于 2024-08-06 11:34:05 发布

hezzfew

最新推荐文章于 2024-08-06 11:34:05 发布

阅读量970

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理机器学习人工智能

本文链接：https://blog.csdn.net/hezzfew/article/details/120348092

版权

本文介绍了GPT-2模型，一个基于Transformer的自回归语言模型，其在大规模数据集上预训练，能生成连贯文章。GPT-2与BERT等自编码模型不同，它只能利用上文信息。文章详细阐述了GPT-2的结构，包括输入编码、多层Decoder和Decoder中的Masked Self-Attention机制。

摘要由CSDN通过智能技术生成

1 GPT模型

OpenAI提出的GPT-2模型(https://openai.com/blog/better-language-models/)能够写出连贯并且高质量的文章，比之前语言模型效果好很多。GPT-2是基于Transformer搭建的，相比于之前的NLP语言模型的区别是：基于Transformer大模型、，在巨大的数据集上进行了预训练。

2 语言模型

自编码语言模型（auto-encoder）：自编码语言模型典型代表就是BERT。自编码语言模型通过随机Mask输入的部分单词，然后预训练的目标是预测被Mask的单词，不仅可以融入上文信息，还可以自然的融入下文信息。
自回归语言模型（auto-regressive）：语言模型根据输入句子的一部分文本来预测下一个词。日常生活中最常见的语言模型就是输入法提示，它可以根据你输入的内容，提示下一个单词。

自编码语言模型的优缺点：

优点：自然地融入双向语言模型，同时看到被预测单词的上文和下文
缺点：训练和预测不一致。训练的时候输入引入了[Mask]标记，但是在预测阶段往往没有这个[Mask]标记，导致预训练阶段和Fine-tuning阶段不一致。

自回归语言模型的优点和缺点：

优点：对于生成类的NLP任务，比如文本摘要，机器翻译等，从左向右的生成内容，天然和自回归语言模型契合。

最低0.47元/天解锁文章

hezzfew

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于Transformers的自然语言处理入门【四】-GPT

基于Transformers的自然语言处理入门【四】-GPT1 GPT模型2 语言模型3 基于Transformer的语言模型4 GPT2详解1 GPT模型OpenAI提出的GPT-2模型(https://openai.com/blog/better-language-models/)能够写出连贯并且高质量的文章，比之前语言模型效果好很多。GPT-2是基于Transformer搭建的，相比于之前的NLP语言模型的区别是：基于Transformer大模型、，在巨大的数据集上进行了预训练。2 语言模型
复制链接

扫一扫

专栏目录