文献阅读（48）NIPS2017-Attention Is All You Need

学徒刘猛

已于 2022-10-28 12:10:39 修改

阅读量839

点赞数

分类专栏：文献阅读文章标签：深度学习自然语言处理人工智能

于 2021-06-09 16:43:49 首次发布

本文链接：https://blog.csdn.net/CSDNTianJi/article/details/117747740

版权

文献阅读专栏收录该内容

87 篇文章 32 订阅

订阅专栏

本文是对《Attention Is All You Need》一文的浅显翻译与理解，如有侵权即刻删除。

文章目录

Title
总结

Title

《Attention Is All You Need》

——NIPS2017

Author: Ashish Vaswani

总结

参考文章：

https://www.zhihu.com/question/61077555

https://zhuanlan.zhihu.com/p/63191028

https://zhuanlan.zhihu.com/p/48508221

https://zhuanlan.zhihu.com/p/46990010

文章提出了Transformer算法，抛弃传统机器翻译通过CNN或RNN构建的编码解码器模型，而是完全使用注意力机制构建。前人文章分析已经到位，在此主要梳理一下框架，并非完全按照文章结构进行介绍。

1 位置编码

首先，给出一段文本序列x，由于注意力机制无法捕获相对或绝对位置的信息，因此文章采用了位置编码的思想，对这段文本序列进行初始化为嵌入z。

在这里插入图片描述

使用sin和cos函数进行编码的含义，主要源自于这一定义：

在这里插入图片描述

这意味着p+k位置的向量可以表示成位置p向量的线性变换，提供了表达相对位置信息的可能性。

2 编码器和多头注意力机制

在对文本序列进行初始化后，就要送入编码器进行编码。编码器和解码器的结构是机器翻译中常见的经典结构，即给出数据序列，通过编码首先进行封装，换算后再解码成预期结果：

在这里插入图片描述

编码器层数设定为6，每一层又分为两个子层，首先进行注意力机制的加权计算，其次设置全连接层得到输出。注意到，在底层也就是第一层的输入是上述通过位置编码得到的嵌入向量，而之后的每一层的输入都是前一层的输出。

在层与层之间，文章还引入了残差连接的方法来预防梯度消失。由于网络变深后，不断求偏导会导致梯度消失的隐患增大，模型性能会不升反降。因此，残差连接允许低层的原始信息直接传递作为附加信息到后续高层，那么高层网络求偏导时，就会多出一个常数项，从而避免了梯度消失。

所谓注意力机制，其思想源自于信息检索领域，人们在搜索引擎中输入的查询内容即Query，系统为其匹配的关键字即Key，而最终搜索得到的结果即Value。因此，注意力机制事实上是一种对同一序列不同位置的向量进行加权重组的过程。通过计算每个位置Query和Key得到的分数，进行归一化后作为权重附加到实际的Value上，就完成了加权的过程，即：

在这里插入图片描述