GPT和GPT2

奔波儿大王

于 2020-08-15 10:48:37 发布

阅读量517

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41557627/article/details/108019326

版权

笔记专栏收录该内容

113 篇文章

订阅专栏

https://blog.csdn.net/weixin_48185819/article/details/106533850

https://zhuanlan.zhihu.com/p/174782647

https://wmathor.com/index.php/archives/1456/

我们知道transformer里有encoder层和decoder层，而GPT里主要用的是decoder层，不过做了一点改变，就是去掉了中间的Encoder-Decoder Attention层（因为没有encoder层，所以也就不需要Encoder-Decoder Attention这一层啦~）。也有人说用到的是encoder层，做的改变是将Multi-Head Attention换成了Masked Multi-Head Attention。

那么可能有人会问，这两种说法到底哪个正确呢？其实，这两种说法都对，因为仔细分析一下就会发现这两种说法是一个意思，不就是 Masked Multi-Head Attention + Feed Forward 嘛 ~ 如下图所示：
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。