基于Transformers的自然语言处理入门【四】-GPT

本文介绍了GPT-2模型,一个基于Transformer的自回归语言模型,其在大规模数据集上预训练,能生成连贯文章。GPT-2与BERT等自编码模型不同,它只能利用上文信息。文章详细阐述了GPT-2的结构,包括输入编码、多层Decoder和Decoder中的Masked Self-Attention机制。
摘要由CSDN通过智能技术生成

基于Transformers的自然语言处理入门【四】-GPT

1 GPT模型

OpenAI提出的GPT-2模型(https://openai.com/blog/better-language-models/)能够写出连贯并且高质量的文章,比之前语言模型效果好很多。GPT-2是基于Transformer搭建的,相比于之前的NLP语言模型的区别是:基于Transformer大模型、,在巨大的数据集上进行了预训练。

2 语言模型

  • 自编码语言模型(auto-encoder):自编码语言模型典型代表就是BERT。自编码语言模型通过随机Mask输入的部分单词,然后预训练的目标是预测被Mask的单词,不仅可以融入上文信息,还可以自然的融入下文信息。
  • 自回归语言模型(auto-regressive):语言模型根据输入句子的一部分文本来预测下一个词。日常生活中最常见的语言模型就是输入法提示,它可以根据你输入的内容,提示下一个单词。

自编码语言模型的优缺点:

  1. 优点:自然地融入双向语言模型,同时看到被预测单词的上文和下文
  2. 缺点:训练和预测不一致。训练的时候输入引入了[Mask]标记,但是在预测阶段往往没有这个[Mask]标记,导致预训练阶段和Fine-tuning阶段不一致。

自回归语言模型的优点和缺点:

  1. 优点:对于生成类的NLP任务,比如文本摘要,机器翻译等,从左向右的生成内容,天然和自回归语言模型契合。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值