GPT2详解

最新推荐文章于 2024-09-09 20:32:04 发布

Decennie

最新推荐文章于 2024-09-09 20:32:04 发布

阅读量1.2w

点赞数 3

分类专栏： NLP

原文链接：https://posts.careerengine.us/p/5eb20d7384fc8b579df568db

版权

NLP 专栏收录该内容

11 篇文章 12 订阅

订阅专栏

GPT-2是GPT的升级版，它取消了微调训练，仅进行无监督预训练，通过海量数据集（40G，800万个网页）提升模型的泛化能力。模型参数量增加到15亿，Transformer层数增至48层，上下文大小扩大至1024 tokens。此外，GPT-2还调整了Transformer结构，增强了模型的表达能力。

摘要由CSDN通过智能技术生成

GPT-2详解
GPT-2依然沿用GPT单向transformer的模式，只不过做了一些改进与改变。那GPT-2相对于GPT有哪些不同呢？看看下面几方面：

GPT-2去掉了fine-tuning训练：只有无监督的pre-training阶段，不再针对不同任务分别进行微调建模，而是不定义这个模型应该做什么任务，模型会自动识别出来需要做什么任务。这就好比一个人博览群书，你问他什么类型的问题，他都可以顺手拈来，GPT-2就是这样一个博览群书的模型。
增加数据集：既然要博览群书，当然得先有书，所以GPT-2收集了更加广泛、数量更多的语料组成数据集。该数据集包含800万个网页，大小为40G。当然这些数据集是过滤后得到的高质量文本，这样效果才能更好的哦~
增加网络参数：GPT-2将Transformer堆叠的层数增加到48层，隐层的维度为1600，参数量更是达到了15亿。15亿什么概念呢，Bert的参数量也才只有3亿哦_{当然，这样的参数量也不是说谁都能达到的，这也得取决于money的多少啊}
调整transformer：将layer normalization放到每个sub-block之前，并在最后一个Self-attention后再增加一个layer normalization。论文中这块感觉说的模棱两可，如果给个图就好了。不过可以通过代码了解这一细节，下图是我理解如何加layer normalization的示意图，给大家做个参考~~~

$\begin{aligned} \textcolor{white}{GPT 2\space示意图} \end{aligned}$

$\begin{aligned} \textcolor{white}{GPT \space示意图} \end{aligned}$
其他：GPT-2将词汇表数量增加到50257个；最大的上下文大小 (context size) 从GPT的512提升到了1024 tokens；batchsize增加到512。