浅谈GPT-2

最新推荐文章于 2024-06-03 16:53:52 发布

喜欢打酱油的老鸟

最新推荐文章于 2024-06-03 16:53:52 发布

阅读量2k

点赞数

文章标签：浅谈GPT-2

原文链接：https://blog.csdn.net/Nuspen/article/details/103599125

版权

人工智能专栏收录该内容

4214 篇文章 344 订阅

订阅专栏

GPT-2
自google在2018年10月底公布BERT在11项NLP任务中的卓越表现后，BERT（Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型。在统治人工智能界长达4个月后，bert终于迎来了一个新的“对手”——GPT-2（openAI产品）。

GPT-2模型
最近在做一个项目，其中用到了GPT-2，因此对它深入研究了一下^ ^。
我一共看了2个版本的GPT-2模型源代码，一个是德国学生书写的，另一个是集成在pytorch_transformers中的。这两个模型完全相同的，但德国学生版本的代码更容易阅读、学习。

模型浅谈
GPT-2和bert都是基于transformer的模型，两者的结构几乎完全相同。

不同点有2点：

bert是输入完整数据序列，然后通过一系列的相似性比对和加权，使句子成为一个整体，句子中的每个单位都一定程度的关联着整体信息。GPT-2则不同，它是输入一个词预测下一个，然后输入二个词预测之后的一个……
GPT-2每一层的自注意层都比bert都多了二个神经网络全连接。它们分别在每个自注意层的头尾部，并且数据进入自注意层前的神经网络时加了归一化。

个人感觉若是bert学的666，GPT-2很容易上手的。

————————————————
版权声明：本文为CSDN博主「Nuspen」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Nuspen/article/details/103599125

喜欢打酱油的老鸟

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
浅谈GPT-2

GPT-2自google在2018年10月底公布BERT在11项NLP任务中的卓越表现后，BERT（Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型。在统治人工智能界长达4个月后，bert终于迎来了一个新的“对手”——GPT-2（openAI产品）。GPT-2模型最近在做一个项...
复制链接

扫一扫