图文并茂解释Transformer--The Illustrated Transformer翻译精简

本文深入浅出地介绍了Transformer模型,强调了Self-Attention和Multi-Head Attention的概念,以及它们在机器翻译任务中的作用。Transformer通过Self-Attention解决了RNN和CNN在处理序列数据时的限制,利用位置编码表示序列顺序,并采用残差连接和层规范化。文中还涵盖了Decoder的结构和训练过程的重点。
摘要由CSDN通过智能技术生成

原文链接https://jalammar.github.io/illustrated-transformer/

所需知识储备: RNN, Seq2Seq序列模型,Residual残差计算...

自从Attention is All you need 这篇文章发布后,Transformer火的一塌糊涂,热度不低于Bert。接下来让我们一起领略这个号称可以取代RNN,CNN的结构究竟是什么。

概览:

以机器翻译任务来示例,Transformer有着上述的黑盒结构,里面是多层的encoder和decoder:

其中每一个encoder单元有着完全相同的结构(但是并不互相共享权重),每个encoder单元可以分为两层:

encoder的输入首先流入Self-Attention单元,然后进入feed forward network(FFNN),之后完全相同的FFNN被应用在相同位置。

Decoder 的结构与上面的类似,但是中间又多了一个attention层,这使得解码时能够集中在输入句子的最相关部分(与seq2seq模型中使用attention的方法类似):

在上述模型中加入Tensor:

这一部分看图就行,先是词嵌入的表示,然后词嵌入输入encoder:

在这里,我们开需要注意Transformer

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值