day4--GPT/GPT2.0

最新推荐文章于 2024-04-19 04:00:00 发布

呆呆有库

最新推荐文章于 2024-04-19 04:00:00 发布

阅读量878

点赞数

文章标签：深度学习 transformer 神经网络

本文链接：https://blog.csdn.net/Aaadsda414114/article/details/122319897

版权

GPT

GPT训练的两个阶段：

第一个阶段是 Pre-training 阶段，主要利用大型语料库完成非监督学习；第二阶段是 Fine-tuning，针对特定任务在相应数据集中进行监督学习，通过 Fine-tuning 技术来适配具体任务。

GPT 的架构图：

自注意力机制：

下图中，每一层的所有Trm属于一个自左向右的单向transformer，故在embedding输入和上一层的输出到下一层的输入时，都会做self attention操作，而这个self attention操作相当于当前位置cell会结合上一层所有位置的状态信息，这样就相当于双向连接了，因此需要乘以一个mask矩阵，用来屏蔽当前位置后面的位置的隐藏层状态信息。这是transformer decoder的一个关键。如果不做这样的一个屏蔽操作，那么就变成双向的了。

在这里插入图片描述

GPT-2

GPT-2依然沿用GPT单向transformer的模式，只不过做了一些改进与改变。那GPT-2相对于GPT有哪些不同呢？看看下面几方面：

GPT-2去掉了fine-tuning训练：只有无监督的pre-training阶段，不再针对不同任务分别进行微调建模，而是不定义这个模型应该做什么任务，模型会自动识别出来需要做什么任务。这就好比一个人博览群书，你问他什么类型的问题，他都可以顺手拈来，GPT-2就是这样一个博览群书的模型。
增加数据集：既然要博览群书，当然得先有书，所以GPT-2收集了更加广泛、数量更多的语料组成数据集。该数据集包含800万个网页，大小为40G。当然这些数据集是过滤后得到的高质量文本，这样效果才能更好的哦~
增加网络参数：GPT-2将Transformer堆叠的层数增加到48层，隐层的维度为1600，参数量更是达到了15亿。15亿什么概念呢，Bert的参数量也才只有3亿哦当然，这样的参数量也不是说谁都能达到的，这也得取决于money的多少啊
调整transformer：将layer normalization放到每个sub-block之前，并在最后一个Self-attention后再增加一个layer normalization。论文中这块感觉说的模棱两可，如果给个图就好了。不过可以通过代码了解这一细节，下图是加layer normalization的示意图

GPT-2 的架构图：

在这里插入图片描述

呆呆有库

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
day4--GPT/GPT2.0

目录GPTGPT训练的两个阶段：GPT 的架构图：自注意力机制：GPT-2GPT-2 的架构图：GPTGPT训练的两个阶段：第一个阶段是 Pre-training 阶段，主要利用大型语料库完成非监督学习；第二阶段是 Fine-tuning，针对特定任务在相应数据集中进行监督学习，通过 Fine-tuning 技术来适配具体任务。GPT 的架构图：自注意力机制：下图中，每一层的所有Trm属于一个自左向右的单向transformer，故在embedding输入和
复制链接

扫一扫