最详细的Transformer讲解，Attention Is All You Need

低吟浅笑

已于 2023-12-15 21:53:44 修改

阅读量4.7k

点赞数 45

分类专栏： Transformer 文章标签：机器学习深度学习自然语言处理

于 2021-11-13 11:16:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37424778/article/details/121301072

版权

Transformer 专栏收录该内容

2 篇文章

订阅专栏

本文深入浅出地介绍了Transformer模型，强调了其在序列处理中的重要性，特别是自注意力机制。Transformer由Google Brain提出，首次完全依赖自注意力而非RNN或CNN。内容包括Transformer的背景、详细组件解析及工作流程，特别提到了Encoder和Decoder的交互。建议学习路径为李宏毅课程——阅读原文——结合PPT理解。附带了详细的PPT下载链接以辅助理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

Attention Is All You Need

Google Brain 引用量：30255（1/3 ResNet）

贡献：Transformer 是第一个完全依赖自注意力来计算其输入和输出表示而不是使用序列对齐的RNN和CNN。

一直听别人说Transformer，搞不清楚是什么。可以不用，但是需要理解。

但现有的博客，感觉大多轻飘飘的，甚至没讲清楚 attention 和 self-attention的区别，q，k，v表示什么意义，怎么引入等等。

我这里做了一点小总结，PPT 下载链接在最下面，麻烦点赞，感谢阅读。

建议学习路线：李宏毅课程（宏观理解）--->原文阅读（细节阅读）--->结合我下面PPT的讲义（串讲+总结+引申）。当然先看我的讲义有个初步理解也OK，食用顺序取决于大家。

李宏毅课程：李宏毅2020机器学习深度学习(完整版)国语_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1JE411g7XF?p=54

Transformer原文：

https://arxiv.org/abs/1706.03762https://arxiv.org/abs/1706.03762

一、Transformer背景

二、Transformer内容介绍

PS：这个动图详细的解释了所有的过程，这里我用语言总结下，Encoder包含1，2，3层，Decoder同样，首先Encoder不同之间相互作用，这个很好理解，对于Decoder，Decoder2在解析的过程中，需要用到Decoder2之前的中间信息，以及Input通过Encoder后的信息，但是不会用到Decoder1和Decoder3的信息。图建议仔细看三次，对整个Transformer的过程有个理解。

三、Transformer Result

最后附加PPT下载链接，感谢大家，希望多点赞👍

链接: https://pan.baidu.com/s/1TAOdOilXAxA8_5vE9_849g?pwd=gje4 提取码: gje4
--来自百度网盘超级会员v5的分享

CSDN 0 积分下载：

https://download.csdn.net/download/qq_37424778/88541190?spm=1001.2014.3001.5501

评论 57

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

低吟浅笑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。