All you need is attention（Tranformer） --学习笔记

最新推荐文章于 2022-07-02 11:11:40 发布

Juanly Jack

最新推荐文章于 2022-07-02 11:11:40 发布

阅读量2.5k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/m0_38088359/article/details/84142707

版权

本文深入探讨了Transformer模型，包括其对比RNN和CNN的优势、多头注意力机制、Self-Attention以及Position-wise Feed-Forward Networks。通过Transformer的内部结构，解释了如何利用Attention解决序列到序列任务中的长距离依赖问题，并介绍了位置信息的表示方法。

摘要由CSDN通过智能技术生成

1、回顾

传统的序列到序列的机器翻译大都利用RNN或CNN来作为encoder-decoder的模型基础。实际上传统机器翻译基于RNN和CNN进行构建模型时，最关键一步就是如何编码这些句子的序列。往往第一步是先将句子进行分词，然后每个词转化为对应的词向量，那么每个句子都可以由这些词向量来构造对应的句子的序列表示向量。
（1）RNN递归进行：

yt=f(yt−1,xt)

不管是LSTM、GRU还是SRU，缺点是无法并行计算，速度慢，并且RNN无法特别好地学习到全局的信息，仍然无法彻底解决长距离依赖问题。
（2）CNN卷积：
窗口式遍历，比如卷积核大小为3，那么它的窗口就是3，可以捕获：

yt=f(xt−1,xt,xt+1)

诸如其他卷积也一样可以捕获到相对应核大小的窗口信息，还有一种空洞卷积可以使跨度增大但有间隔的方式去捕获更多的全局信息。并且CNN方便并行。

2、Transformer

纯注意力机制可以一步到位可以获得全局信息，具体方案：

yt=f(xt,A,B)

在这里插入图片描述
上图结构在原论文中是如下复述的：
Encoder： 编码器由6个相同的层堆叠在一起，每一层又有两个支层。第一个支层是一个多头的内部注意机制，第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接，然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是dmodel = 512.