GPT模型系列

1、Mask Multi-head Attentiion

Mask Multi-head Attentiion,应用在tTransformer的decoder中,为了避免预测时能够看见未来的信息,运用到了mask机制

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3krfitxt-1658062021318)(H:\baidu\NLP8\笔记\笔记\研修\image\image-20220717201645411.png)]

如上图所示,与RNN 的预测方式不同RNN的循环结构对于建模语言模型有着先天的优势,可以用当前时间步的隐隐状态去预测未来下一时刻的token,但是对于运用sel-attention机制的decoder来说没这样做不行,(为了预测下一个token,你需要需要知道下一个token是啥,这明显是个悖论。)。因此使用mask机制,仔细来说就是,让模型每次预测时候们看不见为了时候的token,比如用有y1预测x2,然后用y2预测x3。 所以GPT系列模型就是使用transf的decoder这样一个架构,去训练一个单向语言模型。

说到这里,会联想到一种训练方式 : Teacher Forcing

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W2bHzk0k-1658062021319)(H:\baidu\NLP8\笔记\笔记\研修\image\image-20220717202548951.png)]

GPT就是采用这种Teacher Forcing 的方式去训练,按道理来说,标准的语言模型的训练需要将上一个时刻预测的词作为下一时刻的输入,但是这样的训练方式,太慢,复杂度变成了O(n),采用teacher forcing 的方式去训练,虽然模型丧失了一定的纠错能力,但是训练变快。时间复杂度为O(1),并且从实践来看,这样的训练方式,结果并没有太差。

2、Generative Pre-Traning (GPT)

GPT就是一个单向的预训练语言模型,用的Transformer的decoder,一句话就将GPT讲完了。

在这里插入图片描述

3、GPT2

GPT的缺点是,还是采用两种范式,即预训练和微调。GPT2主打不需要微调 ,论文里称Zero shot,但是有点像prompt

反正就与GPT相比更大的参数更大的数据集。

GPT-2能做这么大有几点细节有:

1、使用的BPE编码

2、将layer norm 放在 掩码自注意力的前边 即 pre-norm 使得网络的层数可以更深。

3、使用了top-k的采样方式

4、GPT3

更大的模型。更大的数据集,证明了一点,模型很大确实很管用,而且即使这么大了,从训练的Loss曲线来看,还没有停止下降。

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值