目录
传统的注意力分数计算方法:
但是这是基于s和的向量维度相同的情况下,如果维度不相同呢?
变体一:加入权重矩阵W:
如果维度不相同,我们就需要在中间加入一个权重矩阵,进而实现相乘
变体二:加入一层前馈神经网络:
这个也是在s和维度不等的条件下诞生的,W1和W2的作用就是将s和的维度拉到同一维度,最后再经过一个激活函数和一个一维数组相乘即可得到一个标量。
其余的变体:
可以参考机器学习&&深度学习——注意力分数(详细数学推导+代码实现)-CSDN博客
目录
但是这是基于s和的向量维度相同的情况下,如果维度不相同呢?
如果维度不相同,我们就需要在中间加入一个权重矩阵,进而实现相乘
这个也是在s和维度不等的条件下诞生的,W1和W2的作用就是将s和的维度拉到同一维度,最后再经过一个激活函数和一个一维数组相乘即可得到一个标量。
可以参考机器学习&&深度学习——注意力分数(详细数学推导+代码实现)-CSDN博客