《Attention is all you need》论文阅读笔记

gorgeous秋

已于 2023-11-14 09:59:53 修改

阅读量65

点赞数

分类专栏： classic paper 文章标签：论文阅读论文笔记 transformer 深度学习

于 2023-11-14 00:55:09 首次发布

本文链接：https://blog.csdn.net/m0_56269075/article/details/134389481

版权

1 篇文章 0 订阅

订阅专栏

Attention is all you need

Key	Information
Tags	classic, transformer
Paper Author	Ashish Vaswani
Paper Link	https://arxiv.org/pdf/1706.03762.pdf
Code Link	https://github.com/jadore801120/attention-is-all-you-need-pytorch/tree/master

Abstract

本文提出的Transformer架构是一种摒弃循环框架，完全依赖注意力机制来建模输入输出之间依赖关系的框架。Transformer有着较高的并行度，且能达到SOTA。

减少顺串行计算的目标也构成了扩展神经 GPU、ByteNet 和 ConvS2S 的基础，所有这些都使用卷积神经网络作为基本构建块，并行计算所有输入和输出位置的隐藏表示。在这些模型中，关联来自两个任意输入或输出位置的信号所需的操作数量随着位置之间的距离而增加，对于 ConvS2S 呈线性增长，对于 ByteNet 呈对数增长。这使得学习遥远位置之间的依赖关系变得更加困难。
在 Transformer 中，这被减少到恒定数量的操作，尽管由于平均注意力加权位置而导致有效分辨率降低，我们通过多头注意力来抵消这种影响
self-attention，有时称为intra-attention，是一种将单个序列的不同位置相关联的注意力机制，以便计算序列的表示
Transformer是第一个不使用RNN和CNN等架构，而是完全使用自注意力来表示输入输出之间关系的架构

大多数有竞争力的深度学习sequence transduction models都是基于encoder-decoder架构的。encoder将输入的符号 $x_1,...,x_n)$ 转换到一个连续的表示 $\mathbf{z}=(z_1,...,z_n)$ 。给定 $\mathbf{z}$ ，decoder生成符号的输出序列 $y_1,...,y_m)$ ，每次一个元素，在每个步骤中，模型都是自回归的，在生成下一个时将先前生成的符号用作附加输入
Transformer 遵循这一整体架构，编码器和解码器使用堆叠式自注意力和逐点、全连接层

Trnsformer架构

Encoder：堆叠6个相同的layers，每个layer由两个sub-layer组成。第一个sub-layer是multi-head attention + layer normalization，并且使用了一个residual connection。第二层是一个简单的position-wise fully connection前馈网络 + layer normalization，同样也使用了残差连接。

encoder架构

Decoder：堆叠6个相同的layers，每个layers包含三个sub-layer。第一个sub-layer和encoder第一个子层唯一不一样的是加入了Mask机制，主要是为了防止当前解码位置后面的信息作为context进入解码器，这种掩码屏蔽掉当前编码位置及之后的信息，确保当前位置预测只能依赖当前位置之前位置已经解码的输出（实际上Transformer在推理的时候是解码一个再解码下一个，因为只有解码完上一个位置，当前位置的context才能计算；训练的时候由于已知ground truth，所以可以通过mask的方式同时解码所有的位置）。第二个sub-layer的结构和encoder的第一个子层一致，该子层对编码器堆栈的输出执行多头关注。第三个sub-layer和encoder的第二个子层一样。

decoder架构

注意力函数通常被描述为将一个query和一组key-value对映射到输出。输出一般为value的加权和，其中权重由query和对应的key的兼容性函数的到（相乘）

$output = softmax(QK^T)V$

本文提出Scaled Dot-Product Attention（缩放点积注意力）。输入包括 $Q (q u ery)$ , $d_k$ 维度的 $K (k ey)$ 和 $d_v$ 维度的 $V (v a l u e)$ 。计算Q和K的点积，每个键除以 $\sqrt d_k$ ，然后通过 $so f t ma x$ 函数来获取权重，最后乘V的到输出。

$\textcolor{#FE6F5E}{Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt d_k})V}$

唯一和普通注意力不一样的是加入了缩放因子 $\sqrt d_k$ ，当 $d_k$ 比较大的时候可能会导致Q和K的点积结果幅度很大，这样会将softmax函数的梯度推入极小值，为了防止这样的事情加入了缩放因子（为什么 $d_k$ 变大Q和K的点积幅度变大：假设Q和K中的值都符合均值为0反差为1的随机分布，则点积结果 $q\cdot k = \sum_{i=1}^{d_k}q_ik_i$ 服从均值为0方差为 $d_k$ 的分布）

Multi-Head Attention

$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O\\ where head_i = Attention(QW_i^Q,KW_i^K,VW_i^V)$

在Transformer架构当中有三个地方用到了多头注意力，功能略有不同。

将encoder-decoder连接的attention（decoder的第二个sub-layer），它的query来自前面的decoder layer，key和value来自encoder的输出。这就让解码器当中每一个位置都能参与到输入序列的所有位置。（为什么K-V来自encoder，Q来自decoder？以翻译为例，是要将中文翻译成英语，所以V是encoder的输出，Q只是为了找出与当前encoder输出相关联的重要信息）
encoder当中的attention，QKV全部来自于上一个encoder layer的输出，这允许encoder中的诶个位置都能关注到上一个encoder layer中的所有位置的信息。
decoder当中的attention，和encoder的第一层一样的作用，但是decoder的第一个multi-head attention是由mask操作的。主要是为了防止解码器中的左向信息流（就是不让看没有解码位置的信息），通过将softmax输入中当前解码位置右边（未解码部分）设为 $-\infin$ 来实现。