线性代数之基本概念与矩阵乘法

最新推荐文章于 2021-10-14 10:11:52 发布

june_francis

最新推荐文章于 2021-10-14 10:11:52 发布

阅读量676

点赞数

文章标签：机器学习线性代数

本文链接：https://blog.csdn.net/june_young_fan/article/details/102872176

版权

文章目录

前言

线性代数相关的学习笔记，仅供自己备忘及网友学习交流使用。

一、基础概念和符号

线性代数提供了一种紧凑地表示和操作线性方程组的方法。例如，以下方程组：
$6 x_1 + 8 x_2 = 77$
$3 x_1 - 9 x_2 = 19$
这是两个方程和两个变量，正如你从高中代数中所知，你可以找到 $x_1$ 和 $x_2$ 的唯一解（除非方程以某种方式退化，例如，如果第二个方程只是第一个的倍数，但在上面的情况下，实际上只有一个唯一解）。在矩阵表示法中，我们可以更紧凑地表达：
$A x = b$
$\quad A = \begin{bmatrix} 6 & 8\\ 3 & -9 \end{bmatrix}, b = \begin{bmatrix} 77\\ 19 \end{bmatrix}$

我们可以看到，这种形式的线性方程有许多优点（比如明显地节省空间）。

1.1 基本符号

我们使用以下符号：

$\in \mathbb{R}^{m \times n}$ ，表示 $A$ 为由实数组成具有 $m$ 行和 $n$ 列的矩阵。
$\in \mathbb{R}^n$ ，表示 $x$ 是具有 $n$ 个元素的向量。通常，向量 $x$ 将表示列向量： $x_1, x_2, ..., x_n)^T$ ，即 $x$ 是具有 $n$ 行和 $1$ 列的矩阵。如果我们想要明确地表示行向量：具有 $1$ 行和 $n$ 列的矩阵 - 我们通常写成 $x^T$ （这里 $x^T$ 表示为 $x$ 的转置）。
$x_i$ 表示向量 $x$ 的第 $i$ 个元素：
$\begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix}$
我们使用符号 $a_{ij}$ （或 $A_{ij}$ , $A_{i,j}$ 等）来表示 $A$ 矩阵中第 $i$ 行和第 $j$ 列的元素：
$\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}$
我们用 $a^j$ 或者 $A_{:,j}$ 表示矩阵 $A$ 的第 $j$ 列：
$\begin{bmatrix} | & | & & | \\ a^1 & a^2 & \cdots & a^n \\ | & | & & | \end{bmatrix}$
我们用 $a_i^T$ 或者 $A_{i,:}$ 表示矩阵的第 $i$ 行：
$\begin{bmatrix} -& a_1^T & - \\ -& a_2^T & - \\ & \vdots & \\ -& a_m^T & - \end{bmatrix}$
在许多情况下，将矩阵视为列向量或行向量的集合非常重要且方便。通常，在向量而不是标量上操作在数学上（和概念上）更清晰。只要明确定义了符号，用于矩阵的列或行的表示方式并没有通用约定。

二、矩阵乘法

两个矩阵相乘，其中 $\in \mathbb{R}^{m \times n} \quad and \quad B \in \mathbb{R}^{n \times p}$ ，则：
$\quad \in \quad \mathbb{R}^{m \times p}$
其中：
$C_{ij} = \sum_{k=1}^n A_{ik}B_{kj}$
请注意，为了使矩阵乘积存在， $A$ 中的列数必须等于 $B$ 中的行数。有很多方法可以查看矩阵乘法，我们将从检查一些特殊情况开始。

2.1 向量-向量乘法

给定两个向量 $\in \mathbb{R}^n$ ， $x^Ty$ 通常称为向量内积或者点积，结果是个实数。
$x^Ty \in \mathbb{R}^n = \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} = \sum_{i=1}^n x_iy_i$
注意： $x^Ty = y^Tx$ 始终成立。

给定向量 $\in \mathbb{R}^m$ ， $\in \mathbb{R}^n$ (他们的维度是否相同都没关系)， $xy^T \in \mathbb{R}^{m \times n}$ 叫做向量外积 , 当 $xy^T)_{ij} = x_i y_j$ 的时候，它是一个矩阵。
$xy^T \in \mathbb{R}^{m \times n} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix} \begin{bmatrix} y_1 & y_2 & \cdots y_n \end{bmatrix} = \begin{bmatrix} x_1 y_1 & x_1 y_2 & \cdots & x_1 y_n \\ x_2 y_1 & x_2 y_2 & \cdots & x_2 y_n \\ \vdots & \vdots & \ddots & \vdots \\ x_m y_1 & x_m y_2 & \cdots & x_m y_n \end{bmatrix}$

举一个外积如何使用的一个例子：让 $\in \mathbb{R}^n$ 表示一个 $n$ 维向量，其元素都等于 1 ，此外，考虑矩阵 $\in \mathbb{R}^{m \times n}$ ，其列全部等于某个向量 $\in \mathbb{R}^m$ 。我们可以使用外积紧凑地表示矩阵 $A$ ：
$\begin{bmatrix} | & | & & | \\ x & x & \cdots & x \\ | & | & & | \end{bmatrix} = \begin{bmatrix} x_1 & x_1 & \cdots & x_1 \\ x_2 & x_2 & \cdots & x_2 \\ \vdots & \vdots & \ddots & \vdots \\ x_m & x_m & \cdots & x_m \end{bmatrix} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_m \end{bmatrix} \begin{bmatrix} 1 & 1 & \cdots 1 \end{bmatrix} = x \mathbf{1}^T$

2.2 矩阵-向量乘法

给定矩阵 $\in \mathbb{R}^{m \times n}$ ，向量 $\in \mathbb{R}^n$ , 它们的积是一个向量 $\in \mathbb{R}^m$ 。有几种方法可以查看矩阵向量乘法，我们将依次查看它们中的每一种。

如果我们按行写 $A$ ，那么我们可以表示 $A x$ 为：
$\begin{bmatrix} -& a_1^T & - \\ -& a_2^T & - \\ & \vdots & \\ -& a_m^T & - \end{bmatrix} x = \begin{bmatrix} a_1^T x \\ a_2^T x \\ \vdots \\ a_m^T x \end{bmatrix}$

换句话说， $y$ 中的第 $i$ 个元素是 $A$ 的第 $i$ 行和 $x$ 的内积，即： $y_i = A_{i,:} x = a_{i}^T x$ 。

同样的，可以把 $A$ 写成列的方式，则公式如下：
$\begin{bmatrix} | & | & & | \\ a^1 & a^2 & \cdots & a^n \\ | & | & & | \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = a^1 x_1 + a^2 x_2 + ... + a^n x_n$

换句话说， $y$ 是 $A$ 的列的线性组合，其中线性组合的系数由 $x$ 的元素给出。

到目前为止，我们一直在右侧乘以列向量，但也可以在左侧乘以行向量。用 $y^T = x^T A$ 表示 $\in \mathbb{R}^{m \times n} \quad x \in \mathbb{R}^m \quad y \in \mathbb{R}^n$ 。和之前一样，我们可以用两种可行的方式表达 $y^T$ ，这取决于我们是否根据行或列表达 $A$ 。

第一种情况，我们把 $A$ 用列表示：
$y^T = x^T A = x^T \begin{bmatrix} | & | & & | \\ a^1 & a^2 & \cdots & a^n \\ | & | & & | \end{bmatrix} = \begin{bmatrix} x^T a^1 & x^T a^2 & \cdots & x^T a^n \end{bmatrix}$

这表明 $y^T$ 的第个 $i$ 元素等于 $x$ 和 $A$ 的第 $i$ 列的内积。

最后，根据行表示 $A$ ，我们得到了向量-矩阵乘积的最终表示：
$y^T = x^T A = \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \begin{bmatrix} -& a_1^T & - \\ -& a_2^T & - \\ & \vdots & \\ -& a_m^T & - \end{bmatrix} = x_1 a_1^T + x_2 a_2^T + ... + x_n a_n^T$

所以我们看到 $y^T$ 是 $A$ 的行的线性组合，其中线性组合的系数由 $x$ 的元素给出。

2.3 矩阵-矩阵乘法

有了这些前置知识，我们现在可以看看四种不同的（形式不同，但结果是相同的）矩阵-矩阵乘法：也就是本节开头所定义的 $C = A B$ 的乘法。

首先，我们可以将矩阵 - 矩阵乘法视为一组向量-向量乘积。从定义中可以得出：最明显的特点是 $C$ 的 $(i, j)$ 元素等于 $A$ 的第 $i$ 行和 $B$ 的第 $j$ 列的内积。如下面的公式所示：
$\begin{bmatrix} -& a_1^T & - \\ -& a_2^T & - \\ & \vdots & \\ -& a_m^T & - \end{bmatrix} \begin{bmatrix} | & | & & | \\ b^1 & b^2 & \cdots & b^n \\ | & | & & | \end{bmatrix} = \begin{bmatrix} a_1^T b^1 & a_1^T b^2 & \cdots & a_1^T b^n \\ a_2^T b^1 & a_2^T b^2 & \cdots & a_2^T b^n \\ \vdots & \vdots & \ddots & \vdots \\ a_m^T b^1 & a_m^T b^2 & \cdots & a_m^T b^n \end{bmatrix}$

这里 $\in \mathbb{R}^{m \times k} \quad B \in \mathbb{R}^{k \times n} \quad a_i \in \mathbb{R}^k \quad b^j \in \mathbb{R}^k$ ，所以它们可以计算内积。我们用通常用行表示 $A$ 而用列表示 $B$ 。或者，我们可以用列表示 $A$ ，用行表示 $B$ ，这时 $A B$ 是求外积的和。公式如下：
$\begin{bmatrix} | & | & & | \\ a^1 & a^2 & \cdots & a^n \\ | & | & & | \end{bmatrix} \begin{bmatrix} -& b_1^T & - \\ -& b_2^T & - \\ & \vdots & \\ -& b_m^T & - \end{bmatrix} = \sum_{i = 1}^{n} a^{i}b_{i}^T$

换句话说， $A B$ 等于所有的 $A$ 的第 $i$ 列和 $B$ 的第 $i$ 行的外积的和。因此，在这种情况下， $a_i \in \mathbb{R}^m$ 和 $b^j \in \mathbb{R}^n$ ，外积 $a^{i}b_{i}^T$ 的维度是 $\times n$ ，与 $C$ 的维度一致。

其次，我们还可以将矩阵 - 矩阵乘法视为一组矩阵向量积。如果我们把 $B$ 用列表示，我们可以将 $C$ 的列视为 $A$ 和 $B$ 的列的矩阵向量积。公式如下：
$\begin{bmatrix} | & | & & | \\ b^1 & b^2 & \cdots & b^n \\ | & | & & | \end{bmatrix} = \begin{bmatrix} | & | & & | \\ Ab^1 & Ab^2 & \cdots & Ab^n \\ | & | & & | \end{bmatrix}$
这里 $C$ 的第 $i$ 列由矩阵向量乘积给出，右边的向量为 $c_i = Ab^i$ 。这些矩阵向量乘积可以使用前一小节中给出的两个观点来解释。最后，我们有类似的观点，我们用行表示 $A$ ， $C$ 的行作为 $A$ 和 $B$ 的行之间的矩阵向量积。公式如下：
$\begin{bmatrix} -& a_1^T & - \\ -& a_2^T & - \\ & \vdots & \\ -& a_m^T & - \end{bmatrix} B = \begin{bmatrix} -& a_1^TB & - \\ -& a_2^TB & - \\ & \vdots & \\ -& a_m^TB & - \end{bmatrix}$

这里 $C$ 的第 $i$ 行由左边的向量与右边的矩阵的乘积给出： $c_{i}^T = a_i^TB$ 。
将矩阵乘法剖析到如此大的程度似乎有点过分，特别是当所有这些观点都紧跟在我们在本节开头给出的初始定义（在一行数学中）之后。

这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。为了完全理解线性代数而不会迷失在复杂的索引操作中，关键是要用尽可能多的概念进行操作。

实际上所有的线性代数都是在处理某种矩阵乘法，花一些时间对这里提出的观点进行直观的理解是非常必要的。

除此之外，了解一些更高级别的矩阵乘法的基本属性是很有必要的：

矩阵乘法结合律： $(A B) C = A (B C)$ ；
矩阵乘法分配律： $A (B + C) = A B + A C$ 。
矩阵乘法通常是不满足交换律的；也就是说，通常 $\neq BA$ 。（例如，假设 $\in \mathbb{R}^{m \times k}$ ， $\in \mathbb{R}^{k \times n}$ ，如果 $m$ 和 $n$ 不相等，矩阵 $B A$ 的乘积甚至不存在！）

如果您不熟悉这些属性，请花点时间自己验证它们。例如，为了检查矩阵乘法的相关性，假设 $\in \mathbb{R}^{m \times k}$ ， $\in \mathbb{R}^{k \times n}$ ， $\in \mathbb{R}^{n \times p}$ 。注意 $\in \mathbb{R}^{m \times n}$ ，所以 $\in \mathbb{R}^{m \times p}$ 。类似地， $\in \mathbb{R}^{k \times p}$ ，所以 $\in \mathbb{R}^{m \times p}$ 。因此，所得矩阵的维度一致。为了表明矩阵乘法是相关的，足以检查 $(A B) C$ 的第 $(i, j)$ 个元素是否等于 $A (B C)$ 的第 $(i, j)$ 个元素。我们可以使用矩阵乘法的定义直接验证这一点：
$\bigl((AB)C\bigr)_{ij} = \sum_{k=1}^p (AB)_{ik}C_{kj} = \sum_{k = 1}^p \biggl(\sum_{l = 1}^n A_{il}B_{lk}\biggr)C_{kj}$
$\sum_{k = 1}^p \biggl(\sum_{l = 1}^n A_{il}B_{lk}C_{kj}\biggr) = \sum_{l = 1}^n \biggl(\sum_{k=1}^p A_{il}B_{lk}C_{kj}\biggr)$
$\sum_{l = 1}^n A_{il} \biggl(\sum_{k=1}^p B_{lk}C_{kj}\biggr) = \sum_{l = 1}^n A_{il} (BC)_{lj} = \bigl(A(BC)\bigr)_{lj}$

证毕。

2.4 矩阵的初等变换

实际上，我们可以通过向量与向量相加，向量与标量相乘的操作，来完成对初始向量的移动、压缩和拉伸。
我们将一系列这样的操作合并，就变成了下面这种形式：
$A v = w$
上式我们可以理解为对向量 $v$ 做了矩阵 $A$ 包含的一系列操作，变成了向量 $w$ 。

举个例子：
$\begin{bmatrix} a & b \\ c & d \end{bmatrix}, \quad v = \begin{bmatrix} x \\ y \end{bmatrix}$
$\begin{bmatrix} a & b \\ c & d \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = x \begin{bmatrix} a \\ c \end{bmatrix} + y \begin{bmatrix} b \\ d \end{bmatrix} = \begin{bmatrix} ax + by \\ cx + dy \end{bmatrix}$
那么矩阵的初等变换其实包含了初等行变换和初等列变换。下面以初等行变换为例，初等变换的操作包含：