transformer资料汇总

最新推荐文章于 2024-08-23 11:50:46 发布

naive_zhang

最新推荐文章于 2024-08-23 11:50:46 发布

阅读量592

点赞数 1

分类专栏： deep_learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/naive_zhang/article/details/106731656

版权

deep_learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文阅读

transformer是google提出的一种新的网络结构，其最大的特点是它的self-attention模块，相比于RNN和CNN，self-attention可以直接捕获整个序列的全局信息，同时可以并行计算，速度要快很多。了解该模型最直接的方式就是阅读论文原文：Attention Is All You Need。

模型解析

网上关于该模型解读的文章非常多，自己觉得讲解的比较清楚的是这篇文章：BERT大火却不懂Transformer？读这一篇就够了。英文比较好的同学，可以阅读对应的英文文章：The Illustrated Transformer。

模型实战

由于google的开源项目tensor2tensor包含了transformer模型，因此最简单的方式是通过该项目使用transformer。网上比较好的demo演示是transformer demo1和transformer demo2。亲测这些demo都是可以跑通的，需要相关代码的同学可以联系原博文作者或者联系我。

源码阅读

网上关于transformer有不同版本的代码实现方式，比较好的方式是google开源的tensor2tensor项目：tensor2tensor源码。个人比较推荐方式是先阅读tensorflow项目里面transformer代码样例，代码结构比较清晰：transformer代码样例。

参考文献：

https://arxiv.org/pdf/1706.03762.pdf
https://mp.weixin.qq.com/s/s2mvrF2pWBQ1M3fmwpf0Cg
https://jalammar.github.io/illustrated-transformer/
https://blog.csdn.net/csa121/article/details/79605215
https://zhuanlan.zhihu.com/p/51245148
https://github.com/tensorflow/tensor2tensor
https://tensorflow.google.cn/tutorials/text/transformer?hl=zh_cn

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。