Transformer architecture
Transformer architecture 参考论文Vaswani et al., 2017。
总览
Transformers是一种多层结构,由Transformer block相互堆叠而成。
Transformer block的组成
- 一个多头自注意机制(multi-head self-attention mechanism)
- 一个位置前馈网络(position- wise feed-forward network)
- 层规范化(layer normalization)(Ba等人,2016)模块
- 残差连接层(residual connectors)。
模型输入
input: a tensor of shape RB × RN, B is the batch size, N the sequence length.
embedding layer: input首先通过一个embedding layer,该embedding layer将每个one-hot token表示转换为d维嵌入,即RB×RN×RD。
然后,新的张量与位置编码Positional encodings相加,并通过一个多头自我注意模块。
位置编码可以采用正弦输入的形式(根据(Vaswani等人,2017年))或可训练的嵌入trainable embeddings。
多头自我注意模块的输入和输出通过残差连接器和一层标准化层连接。