Transformer——《Attention is all you need》

最新推荐文章于 2023-06-14 14:07:06 发布

NPC_0001

最新推荐文章于 2023-06-14 14:07:06 发布

阅读量489

点赞数 1

分类专栏： deep learning ML 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/talkAC/article/details/122371051

版权

本文是Google 机器翻译团队在2017 年发表，提出了一个新的简单的网络模型——Transformer。该模型基于纯注意力机制（Attention mechanisms），完全抛弃了RNN和CNN网络结构，在机器翻译任务上取得了很好的效果。

目录

3.1编码器和解码器的堆栈

3.2.1 Scaled Dot-Product Attention

3.2.2 Multi-Head Attention

3.2.3 Applications of Attention in our Model

3.3 Position-wise Feed-Forward Networks

3.4 Embeddings and Softmax

3.5 Positional Encoding

4 Why Self-Attention

1 引言

RNN是一个序列模型，为了保持ht-1到ht的时序信息，难以实现并行计算，当ht不那么大的时候早期的信息容易丢失。

Attention可以对序列模型中的依赖关系进行建模，通常情况下与RNN一起使用。

本文，提出了可以避免递归的Transformer模型，它完全依赖于一个注意机制来表达输入和输出之间的全局依赖关系。Transformer允许更多的并行化，在8个 P100 GPUs上经过短短12个小时的训练后，可以使翻译质量更上台阶。

2 背景

CNN可以并行计算，但为了表示2个输入或输出之间的联系，就需要通过叠加卷积层，层数也是随着2个之间的距离呈线性增加。

Self-attention是一种表示单个序列不同位置关系的注意力机制，可以用来计算序列表示。

端到端记忆网络基于循环注意机制，而不是序列对齐递归，并已被证明在简单语言问题回答和语言建模任务上表现良好。

Transformer是第一个完全依赖于Self-attention来计算其输入和输出的表示的转导模型，而不使用序列对齐的RNN或CNN。

3 模型架构

大多数神经序列模型都具有编码器-解码器结构。在这里，编码器将一个符号表示的输入序列(x1，...，xn)映射到一个连续表示的序列z=(z1，...，zn)。给定z，解码器一次生成一个元素符号的输出序列(y1，...，ym)，每个时刻输出一个结果。在每一步，模型是自回归，在生成下一个时使用之前生成的符号作为额外的输入。Transformer遵循这种整体架构，对编码器和解码器使用堆叠的自注意层和点积的完全连接层，如图1，左边为编码器，右边为解码器。

3.1编码器和解码器的堆栈

编码器：

Encoder有N=6层，每层包括两个sub-layers:

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer——《Attention is all you need》

本文是Google 机器翻译团队在2017 年发表，提出了一个新的简单的网络模型——Transformer。该模型基于纯注意力机制（Attention mechanisms），完全抛弃了RNN和CNN网络结构，在机器翻译任务上取得了很好的效果。目录1 引言2 背景3模型架构3.1编码器和解码器的堆栈编码器：解码器：3.2注意力3.2.1 Scaled Dot-Product Attention3.2.2 Multi-Head Attention3.2.3 Ap..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

NPC_0001 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。