需要多少个head是需要自己调参的
在找相关性的时候使用的是q并且与k点乘,但两个事物的相关性可能有不同的种类的相关性,所以可能需要多个q,来表示多种不同的相关性,
如何得到两个不同的q,即再乘以不同的wq1,wq2,现在已经可以得到多个头了,那多个头怎么得到v?
由于有两个头,但原理与之前一样,此时q1,q2两头,其中q1只与k1点成,在与v1点乘得到b1,q2只与k2点成,在与v2点乘得到b2
最后将b1,b2乘以某个权重
之前的ppt中只讲了如何得到各个input之间的联系,及注意力的信息,但却少了位置信息,在判断英语单词词性时候,如动词一般不怎么放置在句首,所以在判断的时候如果发现动词出现在了句首就小可能的是动词 。所以此时位置信息就比较重要
加入位置信息ei(暂时用不到未仔细看,视频21min57s)