谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。
Attention is All You Need:https://arxiv.org/abs/1706.03762
Tensorflow:https://github.com/tensorflow/tensor2tensor
Pytorch代码:http://nlp.seas.harvard.edu/2018/04/03/attention.html
学习资料:https://jalammar.github.io/illustrated-transformer/
输入输出
输入:embedding之后的维度为512,位置编码 Positional Encoding
为了能和embedding层的信息做sum,positional encoding layer与embedding层保持相同的维度数。论文选择使用不同频率的正弦和余弦函数,即sine和cosine,来表征token的位置信息,具体公式如下: