Background
Transformer发明的背景是在循环神经网络业已成熟阶段,但是成熟的循环神经网络例如LSTM和RNNS等对于长文本的分析效果并不是很理想。当时已经将注意力机制引入了编码器-解码器架构,典型的例子就是Seq2seq。但还是不够,于是就有大聪明想着直接不要之前的循环网络结构,完全应用注意力机制,但是这产生了一个问题就是如果像循环网络一样单向网络,就会导致特征分辨率大幅下降,于是能从多个方面并行进行分析的多头注意力机制就产生了,并经过多方编测,形成当今仍旧流行的transformer。具体可参考2017年Attention Is All You Need
Model Architecture
对模型进行从下到上的分析
Positional Encoding:
由于我们的模型不包含递归和卷积,为了让模型利用序列的顺序,我们必须注入一些关于序列的的相对或绝对位置的信息。
Multi-Head Attention:
多头的自我关注机制是转化器架构的一个关键组成部分。它允许模型根据输入序列的不同部分与预测任务的相关性来动态地衡量它们。
自我关注的基本思想是根据输入序列的每个元素与所有其