图文并茂解释Transformer--The Illustrated Transformer翻译精简

最新推荐文章于 2025-04-02 08:00:00 发布

顶峰猛跑的H

最新推荐文章于 2025-04-02 08:00:00 发布

阅读量953

点赞数

文章标签：深度学习机器翻译 RNN Transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013345707/article/details/98752986

版权

本文深入浅出地介绍了Transformer模型，强调了Self-Attention和Multi-Head Attention的概念，以及它们在机器翻译任务中的作用。Transformer通过Self-Attention解决了RNN和CNN在处理序列数据时的限制，利用位置编码表示序列顺序，并采用残差连接和层规范化。文中还涵盖了Decoder的结构和训练过程的重点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接https://jalammar.github.io/illustrated-transformer/

所需知识储备: RNN, Seq2Seq序列模型，Residual残差计算...

自从Attention is All you need 这篇文章发布后，Transformer火的一塌糊涂，热度不低于Bert。接下来让我们一起领略这个号称可以取代RNN,CNN的结构究竟是什么。

概览:

以机器翻译任务来示例，Transformer有着上述的黑盒结构，里面是多层的encoder和decoder:

其中每一个encoder单元有着完全相同的结构(但是并不互相共享权重)，每个encoder单元可以分为两层:

encoder的输入首先流入Self-Attention单元，然后进入feed forward network(FFNN),之后完全相同的FFNN被应用在相同位置。

Decoder 的结构与上面的类似，但是中间又多了一个attention层，这使得解码时能够集中在输入句子的最相关部分（与seq2seq模型中使用attention的方法类似）:

在上述模型中加入Tensor:

这一部分看图就行，先是词嵌入的表示，然后词嵌入输入encoder：

在这里，我们开需要注意Transformer

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。