attention is all you need
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
Transformer架构主要由编码器和解码器两部分组成。
组成编码器和解码器的重要部分是Transformer块。
Transormer块主要由两个部分组成,注意力层和位置感知前馈神经网络,为了使模型训练更加稳定高效,引入了残差连接和层归一化。
1、注意力层(Multi-Head Attention)
使用多头注意力机制整合上下文语义,它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构,从而更好的解决长文本依赖关系。
2、位置感知前馈神经网络(Feed Forward)
通过全连接层对输入文本序列中的每个单词表示进行更复杂的变换。
3、残差连接(Add)
残差连接是一条分别作用在上述两个子层中的直连通路,被用于连接两个子层的输入与输出,使信息流动更高效,有利于模型的优化。
4、层归一化(Norm)
层归一化作用于上述两个子层的输出表示序列,对表示序列进行层归一化操作,同样起到稳定优化的作用。