GPT模型系列

小郭小郭学富五车

已于 2022-07-21 08:45:17 修改

阅读量1.2k

点赞数

分类专栏： NLP 文章标签：深度学习人工智能

于 2022-07-17 20:51:47 首次发布

本文链接：https://blog.csdn.net/qq_42750193/article/details/125836727

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1、Mask Multi-head Attentiion
- 2、Generative Pre-Traning （GPT）
3、GPT2
4、GPT3

1、Mask Multi-head Attentiion

Mask Multi-head Attentiion,应用在tTransformer的decoder中，为了避免预测时能够看见未来的信息，运用到了mask机制

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3krfitxt-1658062021318)(H:\baidu\NLP8\笔记\笔记\研修\image\image-20220717201645411.png)]$

如上图所示，与RNN 的预测方式不同RNN的循环结构对于建模语言模型有着先天的优势，可以用当前时间步的隐隐状态去预测未来下一时刻的token，但是对于运用sel-attention机制的decoder来说没这样做不行，（为了预测下一个token，你需要需要知道下一个token是啥，这明显是个悖论。）。因此使用mask机制，仔细来说就是，让模型每次预测时候们看不见为了时候的token，比如用有y1预测x2，然后用y2预测x3。所以GPT系列模型就是使用transf的decoder这样一个架构，去训练一个单向语言模型。

说到这里，会联想到一种训练方式： Teacher Forcing

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W2bHzk0k-1658062021319)(H:\baidu\NLP8\笔记\笔记\研修\image\image-20220717202548951.png)]

GPT就是采用这种Teacher Forcing 的方式去训练，按道理来说，标准的语言模型的训练需要将上一个时刻预测的词作为下一时刻的输入，但是这样的训练方式，太慢，复杂度变成了O（n），采用teacher forcing 的方式去训练，虽然模型丧失了一定的纠错能力，但是训练变快。时间复杂度为O(1)，并且从实践来看，这样的训练方式，结果并没有太差。