神经网络中的多维矩阵乘积运算:
多维矩阵乘积运算乘积两项的维度都应该是相同的,如果有论文中有遇到矩阵乘积的两项维度不一致,那就考虑它计算时是使用了广播机制(如YOLACT)。所有大于二维的,最终都是以二维为基础堆叠在一起的!!
所以在矩阵运算的时候,其实最后都可以转成我们常见的二维矩阵运算,遵循的原则是:在多维矩阵相乘中,需最后两维满足shape匹配原则,最后两维才是有数据的矩阵,前面的维度只是矩阵的排列而已!
例子1:三维*三维
比如两个三维的矩阵相乘,分别为shape=[2,2,3]和shape=[2,3,2]
a =
[[[ 1. 2. 3.]
[ 4. 5. 6.]]
[[ 7. 8. 9.]
[10. 11. 12.]]]
b =
[[[ 1. 2.]
[ 3. 4.]
[ 5. 6.]]
[[ 7. 8.]
[ 9. 10.]
[11. 12.]]]
a可以表示成2个shape=[2,3]的矩阵,b可以表示成2个shape=[3,2]的矩阵,前面的额表示的是矩阵排列情况。
计算的时候把a的第一个shape=[2,3]的矩阵和b的第一个shape=[3,2]的矩阵相乘,得到的shape=[2,2],同理,再把a,b个字的第二个shape=[2,3]的矩阵相乘,得到的shape=[2,2]。最终把结果堆叠在一起,就是2个shape=[2,2]的矩阵堆叠在一起。
最后答案的shape为:把第一维表示矩阵排情况的2,直接保留作为结果的第一维,再把后面两维的通过矩阵运算,得到shape=[2,2]的矩阵,合起来结果shape=[2,2,2]。
例子2:四维*四维
比如a:shape=[2,1,4,5],b:shape=[1,1,5,4]相乘,输出的结果中,前两维保留的是[2,1],最终结果shape=[2,1,4,4]
后两维[4,4]理解为利用a中shape[4,5]的矩阵乘b中shape[5,4]的矩阵得到。得到的乘积结果前面的维度为[2,1]的原因是:a前面的维度为[2,1],但b只有[1,1],所以看成b进行了广播得到,但前面的维度满足用broadcast的前提就是有一个维度为1。