一、Self-Attention原理
下图虚线框内为Self-Attention模块基本功能,输入a1,a2,a3,a4a_1,a_2,a_3,a_4a1,a2,a3,a4,输出b1,b2,b3,b4b_1,b_2,b_3,b_4b1,b2,b3,b4。输入序列与输出序列长度相同,内部实际上做的是加权求和的运算。
1、计算a1a_1a1与所有向量(包括自己)的attention-score
使用q1q_1q1与k1,k2,k3,k4k_1,k_2,k_3,k_4k1,k2,k3,