Self—attention
对序列*a1、a2、a3、a4*进行同时考虑相互影响作为输出
-
对a1用wq矩阵求出a1的q1(quarry),用来查询a1与其他a1~4的关联性
-
a1、a2、a3、a4同时乘上wk得到k1~4(key)作为被查询值
-
用*q1分别乘上k1~4得到𝛼1,1 𝛼1,2 𝛼1,3 𝛼1,4作为其分别与a1*的关联性,再经过一层Soft-max层得到最终关联性表达𝛼‘1,1 𝛼’1,2 𝛼‘1,3 𝛼’1,4
-
a1、a2、a3、a4同时乘上wv得到v1~4(value)作为每一个输入的抽取值
-
最后使用关联性做系数对v1~4做加权求和得到最终输出b1