矩阵乘法的不同理解角度

最新推荐文章于 2024-09-29 10:17:07 发布

临风而眠

最新推荐文章于 2024-09-29 10:17:07 发布

阅读量119

点赞数

分类专栏： Math 文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/qq_52431436/article/details/134486790

版权

Math 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

以下图片截自李宏毅线性代数课程

文章目录

1. 向量内积
2.向量的线性组合（linear combination）视角
- - ① AB是A的列向量的线性组合
  - ② AB是B的行向量的线性组合
3. multiple input
4. composition的视角
5.矩阵和的视角 summation of matrices

1. 向量内积

在这里插入图片描述

这幅图确实对辅助记忆那个公式很有帮助
$\begin{align*} \text{Given two matrices } A \text{ and } B, \text{the } (i,j)\text{-entry of } AB \text{ is the inner product of row } i \text{ of } A \text{ and column } j \text{ of } B \end{align*}$

$\begin{align*} AB = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1p} \\ b_{21} & b_{22} & \cdots & b_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ b_{n1} & b_{n2} & \cdots & b_{np} \end{bmatrix} \\ = \begin{bmatrix} \sum_{k=1}^{n} a_{1k}b_{k1} & \sum_{k=1}^{n} a_{1k}b_{k2} & \cdots & \sum_{k=1}^{n} a_{1k}b_{kp} \\ \sum_{k=1}^{n} a_{2k}b_{k1} & \sum_{k=1}^{n} a_{2k}b_{k2} & \cdots & \sum_{k=1}^{n} a_{2k}b_{kp} \\ \vdots & \vdots & \ddots & \vdots \\ \sum_{k=1}^{n} a_{mk}b_{k1} & \sum_{k=1}^{n} a_{mk}b_{k2} & \cdots & \sum_{k=1}^{n} a_{mk}b_{kp} \end{bmatrix} \end{align*}$

2.向量的线性组合（linear combination）视角

① AB是A的列向量的线性组合

在这里插入图片描述
举个例子

假设我们有两个矩阵 ( A ) 和 ( B )，它们的乘积为矩阵 ( C )：

$\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}, \quad B = \begin{bmatrix} 5 & 6 \\ 7 & 8 \end{bmatrix}$

矩阵A的列是 $\begin{bmatrix} 1 \\ 3 \end{bmatrix}$ 和 $\begin{bmatrix} 2 \\ 4 \end{bmatrix}$ ，矩阵B的列是 $\begin{bmatrix} 5 \\ 7 \end{bmatrix}$ 和 $\begin{bmatrix} 6 \\ 8 \end{bmatrix}$ 。

矩阵乘法的结果C的每一列是矩阵A的列的线性组合，其中组合的系数由矩阵B 的相应列提供。计算乘积矩阵C如下：

$\begin{align*} & A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}, \quad B = \begin{bmatrix} 5 & 6 \\ 7 & 8 \end{bmatrix} \\ & C = AB = \begin{bmatrix} 5 \cdot \begin{bmatrix} 1 \\ 3 \end{bmatrix} + 7 \cdot \begin{bmatrix} 2 \\ 4 \end{bmatrix} & 6 \cdot \begin{bmatrix} 1 \\ 3 \end{bmatrix} + 8 \cdot \begin{bmatrix} 2 \\ 4 \end{bmatrix} \end{bmatrix} \\ & \quad = \begin{bmatrix} 19 & 22 \\ 43 & 50 \end{bmatrix} \end{align*}$

这样就能比较明显地看出图中那种形式了

再来一个例子

$\begin{align*} & A = \begin{bmatrix} 1 & 2 & 3\\ 4 & 5 & 6 \end{bmatrix}, \quad B = \begin{bmatrix} 7 & 8\\ 9 & 10\\ 11 & 12 \end{bmatrix} &\\ & C = AB = \begin{bmatrix} 7 \cdot \begin{bmatrix} 1 \\ 4 \end{bmatrix} + 9 \cdot \begin{bmatrix} 2 \\ 5 \end{bmatrix} + 11 \cdot \begin{bmatrix} 3 \\ 6 \end{bmatrix} & 8 \cdot \begin{bmatrix} 1 \\ 4 \end{bmatrix} + 10 \cdot \begin{bmatrix} 2 \\ 5 \end{bmatrix} + 12 \cdot \begin{bmatrix} 3 \\ 6 \end{bmatrix} \end{bmatrix} &\\ & \quad = \begin{bmatrix} 58 & 64\\ 139 & 154 \end{bmatrix} & \end{align*}$

② AB是B的行向量的线性组合

在这里插入图片描述
这种视角下上面给的两个例子也可以写成如下形式：
$\begin{align*} & A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}, \quad B = \begin{bmatrix} 5 & 6 \\ 7 & 8 \end{bmatrix} &\\ & C = AB = \begin{bmatrix} 1\cdot\begin{bmatrix} 5 & 6 \end{bmatrix} + 2\cdot\begin{bmatrix} 7 & 8 \end{bmatrix} \\ 3\cdot\begin{bmatrix} 5 & 6 \end{bmatrix} + 4\cdot\begin{bmatrix} 7 & 8 \end{bmatrix} \end{bmatrix} & \\ & A = \begin{bmatrix} 1 & 2 & 3\\ 4 & 5 & 6 \end{bmatrix}, \quad B = \begin{bmatrix} 7 & 8\\ 9 & 10\\ 11 & 12 \end{bmatrix} &\\ & C = AB = \begin{bmatrix} 1\cdot\begin{bmatrix} 7 & 8 \end{bmatrix} + 2\cdot\begin{bmatrix} 9 & 10 \end{bmatrix} + 3\cdot\begin{bmatrix} 11 & 12 \end{bmatrix} \\ 4\cdot\begin{bmatrix} 7 & 8 \end{bmatrix} + 5\cdot\begin{bmatrix} 9 & 10 \end{bmatrix} + 6\cdot\begin{bmatrix} 11 & 12 \end{bmatrix} \end{bmatrix} & \end{align*}$

3. multiple input

在这里插入图片描述

这里，矩阵A 被看作是一个操作或函数，它作用于矩阵B 的每一列 $b_1, b_2, \ldots, b_p$ 。结果是矩阵 C的每一列 $c_1, c_2, \ldots, c_p$ ，其中每一列 $c_i$ 是矩阵A作用在B的列 $b_i$ 上的结果。

在这个视角中，可以将矩阵乘法看作是对一组输入向量的批处理操作，矩阵A将每一个输入向量 $b_i$ 转换为输出向量 $c_i$ 。这种理解方式对于数据处理尤其有用，例如，在机器学习中，矩阵A可以代表一层网络的权重，矩阵B的列可以代表不同的输入数据，矩阵C的列则是对应的输出。

$\begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn} \end{bmatrix}, \quad B = \begin{bmatrix} b_{11} & \cdots & b_{1p} \\ \vdots & \ddots & \vdots \\ b_{n1} & \cdots & b_{np} \end{bmatrix}\\ % C 的列是 A 乘以 B 的每一列 C = AB = \begin{bmatrix} A\begin{bmatrix} b_{11} \\ \vdots \\ b_{n1} \end{bmatrix} & \cdots & A\begin{bmatrix} b_{1p} \\ \vdots \\ b_{np} \end{bmatrix} \end{bmatrix}$

我们将B的每一列 $b_i$ 视为一个独立的输入向量，矩阵 A 作用在每一个 $b_i$ 上，结果 $Ab_i$ 形成了C的列。这种表示清晰地展示了矩阵乘法中多个输入向量被同一个操作A转换的过程(A可以看成一个system）

4. composition的视角

在这里插入图片描述

将两个矩阵 ( A ) 和 ( B ) 的乘法视为两个函数或变换的序列操作。首先，向量 ( x ) 通过矩阵 ( B ) 转换成新的向量 ( v )，然后向量 ( v ) 再通过矩阵 ( A ) 转换成最终的向量 ( y )。这个过程可以表述为：

$]\\ [ y = Av]$

这两个操作的组合可以用一个矩阵乘法来表示：

$[y = A (B x) = (A B) x]$

因此，矩阵乘积 ( AB ) 代表了先应用 ( B ) 然后应用 ( A ) 的复合变换。在这种视角下，如果你有多个变换或操作，它们可以被组合成一个单一的操作，这在多步骤的过程中非常有用，比如在解决多层次的线性方程组，或者在计算机图形学中的连续变换。

$\begin{align*} & A = \begin{bmatrix} \ldots & \ldots & \ldots \\ \ldots & \ldots & \ldots \\ \end{bmatrix}, \quad B = \begin{bmatrix} \ldots & \ldots & \ldots \\ \ldots & \ldots & \ldots \\ \end{bmatrix} & \\ & x = \begin{bmatrix} \ldots \\ \ldots \\ \end{bmatrix} & \\ & v = Bx & \\ & y = Av & \\ & y = A(Bx) = (AB)x & \\ & C = AB = \begin{bmatrix} \ldots & \ldots & \ldots \\ \ldots & \ldots & \ldots \\ \end{bmatrix} & \end{align*}$

5.矩阵和的视角 summation of matrices

在这里插入图片描述
这幅图展示了矩阵乘法可以被视作是矩阵分解的和。在这种表示中，我们将矩阵 A 的列向量 $a_1, a_2, \ldots, a_n$ 和矩阵 B 的行向量 $b_1^T, b_2^T, \ldots, b_n^T$ 的外积看作是构成乘积矩阵 AB 的块。

具体来说，如果 A 是一个 $\times n$ 矩阵，B 是一个 ( n \times p ) 矩阵，那么A 的第 $i$ 列和 B 的第 $i$ 行的转置 $b_i^T$ 的外积将产生一个 $\times p$ 的矩阵，这个矩阵的每个元素都是 $a_i$ 的对应元素与 $b_i^T$ 的对应元素的乘积。

我们将A的每一列与 B 的每一行的转置相乘，得到 n 个这样的 $\times p$ 矩阵，然后将这些矩阵相加，最终得到 AB 。这个求和过程可以表示为：

$a_1b_1^T + a_2b_2^T + \ldots + a_nb_n^T$

这里的 $a_ib_i^T$ 是一个秩为（至多是）1的矩阵，因为它是从两个向量的外积产生的，这两个向量分别是A 的列和 B 的行。所有这些秩为1的矩阵的和就给出了最终的乘积矩阵 ( AB )。这个视角不仅在数学上很有用，而且在理解算法和进行计算优化时也很有用，特别是在处理大型矩阵时，可以将问题分解为更小、更易于管理的部分。

还是举个例子

$\begin{bmatrix} 1 & 2 & 3\\ 4 & 5 & 6 \end{bmatrix}, \quad B = \begin{bmatrix} 7 & 8\\ 9 & 10\\ 11 & 12 \end{bmatrix}$

首先，我们找出矩阵A的列向量和矩阵B的行向量：

$a_1 = \begin{bmatrix} 1 \\ 4 \end{bmatrix}, \quad a_2 = \begin{bmatrix} 2 \\ 5 \end{bmatrix}, \quad a_3 = \begin{bmatrix} 3 \\ 6 \end{bmatrix} \\ b_1^T = \begin{bmatrix} 7 & 9 & 11 \end{bmatrix}, \quad b_2^T = \begin{bmatrix} 8 & 10 & 12 \end{bmatrix}$

然后，我们计算每对 $a_i$ 和 $b_i^T$ 的外积：

$a_1b_1^T = \begin{bmatrix} 1 \\ 4 \end{bmatrix}\begin{bmatrix} 7 & 8 \end{bmatrix} = \begin{bmatrix} 1 \cdot 7 & 1 \cdot 8 \\ 4 \cdot 7 & 4 \cdot 8 \end{bmatrix} = \begin{bmatrix} 7 & 8 \\ 28 & 32 \end{bmatrix}$

$a_2b_2^T = \begin{bmatrix} 2 \\ 5 \end{bmatrix}\begin{bmatrix} 9 & 10 \end{bmatrix} = \begin{bmatrix} 2 \cdot 9 & 2 \cdot 10 \\ 5 \cdot 9 & 5 \cdot 10 \end{bmatrix} = \begin{bmatrix} 18 & 20 \\ 45 & 50 \end{bmatrix}$

$a_3b_3^T = \begin{bmatrix} 3 \\ 6 \end{bmatrix}\begin{bmatrix} 11 & 12 \end{bmatrix} = \begin{bmatrix} 3 \cdot 11 & 3 \cdot 12 \\ 6 \cdot 11 & 6 \cdot 12 \end{bmatrix} = \begin{bmatrix} 33 & 36 \\ 66 & 72 \end{bmatrix}$

最后，我们将这些外积相加，得到C

$\begin{align*} C &= a_1b_1^T + a_2b_2^T + a_3b_3^T \\ &= \begin{bmatrix} 7 & 8 \\ 28 & 32 \end{bmatrix} + \begin{bmatrix} 18 & 20 \\ 45 & 50 \end{bmatrix} + \begin{bmatrix} 33 & 36 \\ 66 & 72 \end{bmatrix} \\ &= \begin{bmatrix} 7+18+33 & 8+20+36 \\ 28+45+66 & 32+50+72 \end{bmatrix} \\ &= \begin{bmatrix} 58 & 64 \\ 139 & 154 \end{bmatrix} \end{align*}$