理解多维矩阵乘积运算和对应的广播机制

Blizzard_v

已于 2023-03-12 13:39:15 修改

阅读量3.4k

点赞数 7

分类专栏：深度学习 Math 文章标签：矩阵线性代数机器学习深度学习神经网络

于 2022-02-11 21:58:33 首次发布

本文链接：https://blog.csdn.net/Rolandxxx/article/details/122889129

版权

深度学习同时被 2 个专栏收录

20 篇文章 6 订阅

订阅专栏

Math

11 篇文章 0 订阅

订阅专栏

神经网络中的多维矩阵乘积运算：

多维矩阵乘积运算乘积两项的维度都应该是相同的，如果有论文中有遇到矩阵乘积的两项维度不一致，那就考虑它计算时是使用了广播机制（如YOLACT）。所有大于二维的，最终都是以二维为基础堆叠在一起的！！

所以在矩阵运算的时候，其实最后都可以转成我们常见的二维矩阵运算，遵循的原则是：在多维矩阵相乘中，需最后两维满足shape匹配原则，最后两维才是有数据的矩阵，前面的维度只是矩阵的排列而已！

例子1：三维*三维
比如两个三维的矩阵相乘，分别为shape=[2,2,3]和shape=[2,3,2]

a = 
[[[ 1.  2.  3.]
  [ 4.  5.  6.]]
 [[ 7.  8.  9.]
  [10. 11. 12.]]]

b = 
[[[ 1.  2.]
  [ 3.  4.]
  [ 5.  6.]]

 [[ 7.  8.]
  [ 9. 10.]
  [11. 12.]]]

a可以表示成2个shape=[2,3]的矩阵，b可以表示成2个shape=[3,2]的矩阵，前面的额表示的是矩阵排列情况。

计算的时候把a的第一个shape=[2,3]的矩阵和b的第一个shape=[3,2]的矩阵相乘，得到的shape=[2,2]，同理，再把a，b个字的第二个shape=[2,3]的矩阵相乘，得到的shape=[2,2]。最终把结果堆叠在一起，就是2个shape=[2,2]的矩阵堆叠在一起。
最后答案的shape为：把第一维表示矩阵排情况的2，直接保留作为结果的第一维，再把后面两维的通过矩阵运算，得到shape=[2,2]的矩阵，合起来结果shape=[2,2,2]。

例子2：四维*四维
比如a：shape=[2,1,4,5]，b：shape=[1,1,5,4]相乘，输出的结果中，前两维保留的是[2,1]，最终结果shape=[2,1,4,4]

后两维[4,4]理解为利用a中shape[4,5]的矩阵乘b中shape[5,4]的矩阵得到。得到的乘积结果前面的维度为[2,1]的原因是：a前面的维度为[2,1]，但b只有[1,1]，所以看成b进行了广播得到，但前面的维度满足用broadcast的前提就是有一个维度为1。

Blizzard_v

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
理解多维矩阵乘积运算和对应的广播机制

神经网络中的多维矩阵乘积运算：多维矩阵乘积运算乘积两项的维度都应该是相同的，如果有论文中有遇到矩阵乘积的两项维度不一致，那就考虑它计算时是使用了广播机制（如YOLACT）。所有大于二维的，最终都是以二维为基础堆叠在一起的！！所以在矩阵运算的时候，其实最后都可以转成我们常见的二维矩阵运算，遵循的原则是：在多维矩阵相乘中，需最后两维满足shape匹配原则，最后两维才是有数据的矩阵，前面的维度只是矩阵的排列而已！例子1：三维*三维比如两个三维的矩阵相乘，分别为shape=[2,2,3]和shape=[2,
复制链接

扫一扫