要考虑到a1,a2,a3,a4之间的关联,使用全连接层参数量大,且长度不一,改用attention
要考虑到a1,与其余的几个了联系,就要知道联系的权重阿法(a),下面如何得到a?
第一种方法如左图,给a1,a2乘上不同的权重矩阵,得到q,k矩阵,将其在相乘得到阿法
方法二:忽略
将上面步骤运用到4个vector中首先算出a1的q1,再将a2,a3,a4算出k2,k3,k4,并做点乘,同时,a1自己与自己也要做点成操作,即算出a1的q,k,所有结果做softmax(也可以别的激活函数)
,
已经得到a1与哪个最具有关联性,下面要根据ateetion score(即q,k点乘的结果a11,a12)得到重要的资讯,用新的向量Wv乘以a1都得到v1,再将v1与attention score相乘
之前为了得到q1,q2,q3,q4即用不同的a(1,2,3,4)去点乘一个wq,这种操作可以合并成一个矩阵
同时attention score也可以用一样的操作,合并成一个矩阵与矩阵相乘的形式
接下来就是v与attention score点乘得到注意力的地方,用矩阵去表示
整体表示,从中可以发现只有wq,wk,wv是未知的,需要通过训练资料得到他