上两篇文章中,我们介绍了循环神经网络经典的应用结构自编码模型,以及其应对长序列问题的改进模型——带注意力机制的自编码模型。其本质都是通过一个Encoder和一个Decoder实现机器翻译、文本转换、机器问答等功能。
传送门:序列处理之RNN模型、注意力机制(一)
里面的网络结构通常是循环网络或卷积网络。今天我们学习另外一种网络结构,用6个结构相同的Encoder串联构成编码层,用6个结构相同的Decoder串联构成解码层,这种自编码模型称为Transformer.
Transformer架构
Transformer的架构一般如下图所示: