1.Transformer
-
Transformer
是一种新的、基于attention
机制来实现的特征提取器,可用于代替CNN
和RNN
来提取序列的特征。Transformer
首次由论文《Attention Is All You Need》
提出,在该论文中Transformer
用于encoder - decoder
架构。事实上Transformer
可以单独应用于encoder
或者单独应用于decoder
。 -
Transformer
相比较LSTM
等循环神经网络模型的优点:-
可以直接捕获序列中的长距离依赖关系。
-
模型并行度高,使得训练时间大幅度降低。
-
1.1结构
-
论文中的
Transformer
架构包含了encoder
和decoder
两部分,其架构如下图所示。