参考原文➡️Transformer Architecture: The Positional Encoding
文章目录
题目
位置编码(POSITIONAL ENCODING)
简介
顺序的重要性
一个缺少顺序的句子是没有灵魂的,就好比一个人说话前言不搭后语,让人完全摸不着头脑。语言就是在规范着人们说话的方式,它是一种人与人最直接最快速交流的方式,所以要想使得别人能够听懂你说的话,一定要按照顺序来讲。
为什么transformer要引入
在transformer中它是通过Q、K、V三个矩阵之间进行计算,对于每一个单词都是一次性取计算的结果,并没有像RNN那样有时序关系,这在某种程度上似乎就制约了transformer的发展,试问哪一个句子没有前后顺序之分?所以,引入位置编码(positional encoding)势在必行!
它是什么
读到这里,我们大致了解了位置编码的作用就是弥补原本用Attention实现下没有时序信息的不足,所以每个单词在编码的时候根据单词在句子中的位置信息进行二次加工。
怎么实现
要回答这个问题,我们就必