从零实现Transformer
本人使用Pytorch和PaddlePaddle均实现了transformer,并使用数据集做了测试。
完整代码如下:
pytorch代码:transformer_torch
paddlepaddle代码:transformer_paddle
下面以paddlepaddle为例讲解代码实现,pytorch代码实现基本类似:
一、模型总览
transformer总共包含一个编码器和一个解码器。其中解码器和编码器包括多头注意力机制、全连接层、Layernorm、残差连接