Transformer模型总结

最新推荐文章于 2023-06-29 14:55:00 发布

VIP文章 neroyouqiang

最新推荐文章于 2023-06-29 14:55:00 发布

阅读量1.3k

点赞数 2

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40131652/article/details/104128829

版权

Transformer模型总结

Transformer模型
- BERT
- OpenAI GPT
- Transformer XL
- XLNet
- RoBERTa
- DistilBERT
- ALBERT
- 其他模型
模型大小对比

Transformer模型

谷歌2017年文章《All you need is attention》提出Transformer模型，文章链接：
http://arxiv.org/abs/1706.03762
下面对几个基于Transformer的主要的模型进行简单总结。

BERT

来自文章《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。
整个模型可以划分为embedding、transformer、output三部分。

embedding部分由word embedding、position embedding、token type embedding三个模型组成，三个embedding相加形成最终的embedding输入。
transformer部分使用的是标准的Transformer模型encorder部分。
output部分由具体的任务决定。对于token级别的任务，可以使用最后一层Transformer层的输出；对于sentence级别的任务，可以使用最后一层Transfo

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型总结

Transformer模型总结TransformerBERTOpenAI GPTTransformer XLALBERT其他模型Transformer谷歌2017年文章《All you need is attention》提出Transformer模型，文章链接：http://arxiv.org/abs/1706.03762下面对几个基于Transformer的主要的模型进行简单总结。理解...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。