年代:2018年
团队:Google
1. 前言:
- Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成,更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。
- 一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder
2. activation:
对于RNN计算智能从左向右依次计算,这种机制带来了两个问题:
- t时刻的计算依赖于t-1时刻,这样先知了模型的并行能力
- 顺序计算过程中信息会丢失,尽管LSTM等门结构可以一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,lstm依旧无能为力
3. Transformer 结构
Self-Attention:核心内容是为输入向量的每个单词学习一个权重,例如在下面的例子中我们判断it代指的内容
The animal didn't cross the street because it was too tired
通过加权之后可以得到类似图8的加权情况
在Self-attention中,每个单词有三个不同的向量,他们分别是Query向量(Q),Key向量(K),Value向量(V),shape均为[64, 1],它们都是由3个不同的权值矩阵由嵌入向量X乘以3个不同的权值矩阵Wq, Wk, Wv得到,三个矩阵的尺寸也是相同的,均是[512, 64]