非常详细的transformer笔记，包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa

最新推荐文章于 2024-03-07 18:05:32 发布

风度78

最新推荐文章于 2024-03-07 18:05:32 发布

阅读量840

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengdu78/article/details/103907336

版权

华校专老师更新了个人笔记，增加了 Transformer笔记，包含XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa 等内容，内容十分详细，非常值得学习，特此推荐。

作者华校专，曾任阿里巴巴资深算法工程师、智易科技首席算法研究员，现任腾讯高级研究员，《Python 大战机器学习》的作者。华老师也是我们的知识星球的嘉宾。

这是作者多年以来学习总结的笔记，经整理之后开源于世。

笔记地址：

http://www.huaxiaozhuan.com/深度学习/chapters/7_Transformer.html

Transformer简介

Transformer 是一种新的、基于 attention 机制来实现的特征提取器，可用于代替 CNN 和 RNN 来提取序列的特征。

Transformer 首次由论文 《Attention Is All You Need》 提出，在该论文中 Transformer 用于 encoder - decoder 架构。事实上 Transformer 可以单独应用于 encoder 或者单独应用于 decoder 。

Transformer笔记目录

一、Transformer

1.1 结构
1.2 Transformer vs CNN vs RNN
1.3 实验结果

二、Universal Transformer

2.1 结构
2.2 ACT
2.3 实验结果

三、Transformer XL

3.1 Segment-level 递归
3.2 相对位置编码
3.3 实验结果

四、GPT

4.1 GPT V1
4.2 GPT V2

五、BERT

5.1 预训练
5.2 模型结构
5.3 微调
5.4 性能

六、ERNIE

6.1 ERNIE 1.0
6.2 ERNIE 2.0

七、XLNet

7.1 自回归语言模型 vs 自编码语言模型
7.2 Permutation Language Model
7.3 Two-Stream Self-Attention
7.4 Partial Prediction
7.5 引入 Transformer XL
7.6 多输入
7.7 模型比较
7.8 实验

八、MT-DNN

8.1 模型
8.2 实验

九、BERT 扩展

9.1 BERT-wwm-ext
9.2 RoBERTa

笔记截图

笔记截图

其他

华校专老师的个人网站：

http://www.huaxiaozhuan.com/

笔记地址：

http://www.huaxiaozhuan.com/深度学习/chapters/7_Transformer.html

github：

https://github.com/huaxz1986

笔记内容较多，欢迎大家探讨。请点击“阅读原文”

本站简介↓↓↓

“机器学习初学者”是帮助人工智能爱好者入门的个人公众号（创始人：黄海广）

初学者入门的道路上，最需要的是“雪中送炭”，而不是“锦上添花”。

本站的知识星球（黄博的机器学习圈子）ID：92416895

目前在机器学习方向的知识星球排名第一（上图二维码）

往期精彩回顾

备注：本站qq群：865189078（共8个群，不用重复加）。

加入本站微信群，请加黄博的助理微信，说明：公众号用户加群。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。