transformer论文解读_[深度学习概念]·谷歌transformer论文解读（转）

最新推荐文章于 2024-06-11 09:30:20 发布

weixin_39560207

最新推荐文章于 2024-06-11 09:30:20 发布

阅读量372

点赞数

文章标签： transformer论文解读

本文链接：https://blog.csdn.net/weixin_39560207/article/details/112875259

版权

简介

这篇博客的主要内容是对谷歌提出的transformer 进行论文解读，包含算法复杂度的分析。对应的论文是 “Attention is all you need", 链接如下 https://arxiv.org/pdf/1706.03762.pdf 。

选择这篇论文的原因有三点。

1. 这篇论文达到了 new the state-of-the-art result, 应该是现在做神经翻译里最好的BLUE结果。

2. 这篇文章提出的算法另辟蹊径，没有采取大热的RNN/LSTM/GRU的结构，而是使用attention layer 和全连接层，达到了较好的效果，并且解决了 RNN/LSTM/GRU 里的long dependency problem 。

3. 这篇文章的算法解决了传统RNN 训练并行度的问题，并降低了计算复杂度。

接下来会按照 "Attention is all you need" 论文中的逻辑，逐个模块介绍，希望能对大家有所帮助。原文写在我的笔记上。

https://shimo.im/docs/gmRW4WV2mjoXzKA1/

模型结构

Fig.1 The transformer architecture

上面这个Fig.1 就是谷歌提出的transformer 的架构。这其中左半部分是 encoder 右半部分是 decoder.

Encoder: 这里面有 N=6 个一样的layers, 每一层包含了两个sub-layers. 第一个sub-layer 就是多头注意力层(multi-head attention layer) 然后是一个简单的全连接层。这里还有一个残差连接 (residual connection), 在这个基础上，还有一个layer norm. 这里的注意力层会在下文详细解释。

Decoder: 这里同样是有六个一样的Layer是，但是这里的layer 和encoder 不一样，这里的layer 包含了三个sub-layers, 其中有一个self-attention layer, encoder-decoder attention layer 最后是一个全连接层。前两个sub-layer 都是基于multi-head attention layer. 这里有个特别点就是masking, masking 的作用就是防止在训练的时候使用未来的输出的单词。比如训练时，第一个单词是不能参考第二个单词的生成结果的。 Masking就会把这个信息变成0，用来保证预测位置 i 的信息只能基于比 i 小的

最低0.47元/天解锁文章

weixin_39560207

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer论文解读_[深度学习概念]·谷歌transformer论文解读（转）

目录简介这篇博客的主要内容是对谷歌提出的transformer 进行论文解读，包含算法复杂度的分析。对应的论文是 “Attention is all you need", 链接如下 https://arxiv.org/pdf/1706.03762.pdf 。选择这篇论文的原因有三点。1. 这篇论文达到了 new the state-of-the-art result, 应该是现在做神经翻译里最好...
复制链接

扫一扫

transformer论文解读_[深度学习概念]·谷歌transformer论文解读（转）

“相关推荐”对你有帮助么？