《Attention Is All You Need 》阅读笔记

最新推荐文章于 2025-04-08 18:30:56 发布

蕉叉熵

最新推荐文章于 2025-04-08 18:30:56 发布

阅读量3.2w

点赞数 15

分类专栏：机器学习深度学习阅读笔记文章标签： attention

本文链接：https://blog.csdn.net/songbinxu/article/details/80332992

版权

机器学习同时被 3 个专栏收录

54 篇文章

订阅专栏

深度学习

22 篇文章

订阅专栏

阅读笔记

3 篇文章

订阅专栏

Attention Is All You Need 阅读笔记

Introduction

本文是谷歌发表的文章，针对nlp里的机器翻译问题，提出了一种被称为”Transformer”的网络结构，基于注意力机制。文章提出，以往nlp里大量使用RNN结构和encoder-decoder结构，RNN及其衍生网络的缺点就是慢，问题在于前后隐藏状态的依赖性，无法实现并行，而文章提出的”Transformer”完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，这样做最大的好处是能够并行计算了。

Background

在此之前，针对机器翻译这个领域，为了应对RNN无法并行问题，已经有过一些使用CNN的解决方案了，例如谷歌的ByteNet，Facebook的FairSeq等等。
自注意力机制（Self-attention）能够把输入序列上不同位置的信息联系起来，然后计算出整条序列的某种表达，目前自注意力机制主要应用于阅读理解、提取摘要、文本推论等领域。

模型结构

大多数自然语言转换模型都包含一个encoder-decoder结构，模型的输入是一个离散符号序列（symbol） $x=(x_1,x_2,\cdots,x_n)$ ，encoder负责将它映射成连续值序列 $z=(z_1,z_2,\cdots,z_n)$ 。而给定 $z$ ，decoder负责生成一个输出符号序列 $y=(y_1,y_2,\cdots,y_m)$ 。模型是自回归的，即之前生成的输出会作为额外的输入，用于生成下一个输出。

Encoder与Decoder堆叠

Encoder

Transformer模型的Encoder由6个基本层堆叠起来，每个基本层包含两个子层，第一个子层是一个注意力机制，第二个是一个全连接前向神经网络。对两个子层都引入了残差边以及layer normalization。

Decoder

Transformer模型的Decoder也由6个基本层堆叠起来，每个基本层除了Encoder里面的那两个以外，还增加了一层注意力机制，同样引入残差边以及layer normalization。

注意力机制

注意力机制（Attention）简单来说就是给定一个查找（query）和一个键值表（key-value pairs)，将query映射到正确的输入的过程。此处的query、key、value和最终的输出都是向量。输出往往是一个加权求和的形式，而权重则由query、key和value决定。

Additive Attention

Scaled Dot-Product Attention

输入包含 $d_k$ 维的query和key，以及 $d_v$ 维的value。通过计算query和各个key的点积，除以 $\sqrt{d_k}$ 归一化，然后经过softmax激活变成权重，最后再乘value。点积注意力机制的优点是速度快、占用空间小。

A t t e n t i o n (Q, K, V) = s o f t m a x (Q K T d k ‾ ‾ \sqrt) V

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

Multi-Head Attention

用 $h$ (本文取8)个不同的线性变换分别将 $d_{model}维的$ key、value和query映射成 $d_k$ 维、 $d_k$ 维和 $d_v$ 维，然后再代入注意力机制，产生总共 $h\times d_v$ 维输出，然后拼起来，再用一个线性变换得到最终的输出。

h e a d i = A t t e n t i o n (Q W Q i, K W K i, V W V i) M u l t i H e a d (Q, K, V) = C o n c a t (h e a d 1, \dots, h e a d h) W O

$head_i = Attention(QW_i^Q,KW_i^K,VW_i^V)\\MultiHead(Q,K,V)=Concat(head_1,\cdots,head_h)W^O$

本文使用的注意力机制

本文使用的是Multi-Head Attention，具体体现在三个方面。

在“encoder-decoder attention”层中，query来自前一个decoder层，而key和value是encoder的输出。这允许decoder的每个位置都去关注输入序列的所有位置。
encoder包含self-attention层，在self-attention层中所有的key、value和query都来自前一层的encoder。这样encoder的每个位置都能去关注前一层encoder输出的所有位置。
decoder包含self-attention层

前向神经网络

这是一个 Position-wise 前向神经网络，encoder和decoder的每一层都包含一个前向神经网络，激活函数顺序是线性、RELU、线性。

F F N (x) = m a x (0, x W 1 + b 1) W 2 + b 2

$FFN(x)=max(0,xW_1+b_1)W_2+b_2$

位置编码

由于本文的模型结构没有使用任何递归结构或卷积结构，为了让模型能利用输入序列的顺序信息，必须引入某种能表达输入序列每个部分的绝对或相对位置的信息才行。文章采取的方法是位置编码（positional encoding），在送入encoder和decoder之前，先对输入进行编码，编码后的向量维度是 $d_{model}$ 。具体来说，采用正弦和余弦函数进行编码。

P E (p o s, 2 i) = sin (p o s / 10000 2 i / d m o d e l) P E (p o s, 2 i + 1) = cos (p o s / 10000 2 i / d m o d e l)

$PE(pos,2i)=\sin\left (pos/10000^{2i/d_{model}} \right)\\ PE(pos,2i+1)=\cos\left (pos/10000^{2i/d_{model}} \right)$

为什么使用self-attention

从三个方面去对比self-attention和递归结构、卷积结构的优劣性，首先是每一层的计算复杂度，其次是能够被并行的计算量，最后是网络中长期依赖的路径长度。对比显示，self-attention表现最好。

这里写图片描述

训练

训练数据使用WMT English-German数据集，包含450w对语句。句子都被编码过了，使用了一个大小约37000个token的字典。样本被分为若干个batch，每个batch大概25000个token，每个batch中的句子长度保持基本一致。硬件上使用了8块GPU。Optimizer使用了Adam。过拟合方面使用了dropout和Label Smoothing。