机器学习第二周（线性代数基础）

最新推荐文章于 2024-09-13 11:18:00 发布

PL_涵

最新推荐文章于 2024-09-13 11:18:00 发布

阅读量79

点赞数

分类专栏：【入门学习ML】文章标签：线性代数机器学习矩阵

本文链接：https://blog.csdn.net/PL_hfc/article/details/130916654

版权

【入门学习ML】专栏收录该内容

15 篇文章 1 订阅

订阅专栏

矩阵的定义

我们给出百度百科中对于矩阵的定义：

矩阵，数学术语。在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合，最早来自于方程组的系数及常数所构成的方阵。

由 $m \times n$ 个数 $a_{ij}$ 排成的 $m$ 行 $n$ 列的数表称为 $m$ 行 $n$ 列的矩阵，简称 $m \times n$ 矩阵。记作：

其中， $m \times n$ 被称为矩阵的维数，即矩阵的行数乘以矩阵的列数，有时候，也会使用符号 $R^{m×n}$ 来表示 $m \times n$ 的矩阵；矩阵中的数被称为元素。

特别的，如果矩阵中的元素都是实数，则称为实矩阵；如果矩阵中的元素都是复数，则称为复矩阵；如果矩阵的行数与列数都等于 $n$ ，则称为 $n$ 阶矩阵或 $n$ 阶方阵。

如何表达矩阵的某个特定元素

对于矩阵 $A$ 中第 $i$ 行第 $j$ 列的元素，我们使用下标的方式来表示它，即 $A_{ij}$ ，其中 $i$ 表示元素所在的行， $j$ 表示元素所在的列。

向量的定义

向量其实就是只有一列的矩阵，其维数为 $m \times 1$ 。

上图是一个向量的例子，可以看出其维数是 $4 \times 1$ ，即这是一个 $4$ 维向量。在矩阵的定义中，我们提到了使用符号 $R^{m×n}$ 可以用来表示 $m \times n$ 的矩阵，同样的，在向量中，我们可以使用符号 $R^m$ 来表示 $m$ 维的向量。

如何引用向量中的元素

对于 $4$ 维向量 $y$ 中的第 $i$ 个的元素，我们使用下标的方式来引用它，即 $y_i$ ，其中 $i$ 表示元素所在的行。不同的下标表示
在引用向量中的元素时，会有两种下标索引的方法，一种是从 $1$ 开始索引元素，更贴近于数学上的表达方式；另一种是从 $0$ 开始索引元素，更贴近于机器上的表达方式。

注意，在机器学习中，我们往往使用大写字母来表示一个矩阵，使用小写字母来表示一个向量或者一个数字或者一个标量。

矩阵的运算

矩阵的加法

矩阵的加法
上图所示，我们将两个矩阵相加，其结果如下：

$\begin{bmatrix}1 & 0 \\2 & 5\\3 & 1\end{bmatrix}+$ $\begin{bmatrix}4 & 0.5 \\2 & 5\\0 & 1\end{bmatrix}=$ $\begin{bmatrix}5 & 0.5 \\4 & 10\\3 & 2\end{bmatrix}$

显然，矩阵加法的结果仍然是矩阵，矩阵的加法意味着将两个矩阵对应位置的元素相加得到新矩阵对应位置上的元素，所以相加的两个矩阵的维数必须相同，即如果 $A _{m×n}+B_{m×n}=C_{m×n}$ ，则 $A_{ij}+B_{ij}=C_{ij}$ 。

矩阵的减法是一样的道理，即将两个矩阵对应位置的元素相减来得到新矩阵对应位置上的元素。

矩阵与标量的乘法

矩阵与标量的乘法
上图所示，我们将矩阵与标量相乘，其结果如下：

$3×\begin{bmatrix}1 & 0 \\2 & 5\\3 & 1\end{bmatrix}=$ $\begin{bmatrix}3 & 0 \\6 & 15\\9 & 3\end{bmatrix}$

显然，矩阵与标量的乘法意味着将矩阵中的所有元素都逐一与标量相乘，即 $_{m×n}，X\in\R$ ，则 $A_{ij}=X×A_{ij}$ 。

矩阵与标量的除法是一样的道理，因为与任意数相除可以转化为与该数的倒数相乘。

$\begin{bmatrix}4 & 0 \\6 & 3\end{bmatrix}/4=$ $\begin{bmatrix}4 & 0 \\6 & 3\end{bmatrix}×$ $\Large\frac 1 4=$ $\begin{bmatrix}1 & 0 \\ \frac 3 2& \frac 3 4\end{bmatrix}$

矩阵与向量的乘法

上图是矩阵与向量相乘的一个例子，之前我们已经介绍了向量，它实际上就是只有一列的矩阵，
很显然，上图是一个 $3 \times 2$ 的矩阵与一个 $2$ 维向量相乘，其结果如下：

$\begin{bmatrix}1 & 3 \\4 & 0\\2 & 1\end{bmatrix}×$ $\begin{bmatrix}1\\5\end{bmatrix}=$ $\begin{bmatrix}16\\4\\7\end{bmatrix}$

我们得到了一个 $3$ 维向量，接下来我们介绍具体是如何相乘的。
矩阵与向量的乘法
我们有一个 $m \times n$ 的矩阵 $A$ ，与一个 $n$ 维的向量 $x$ 相乘，可以得到一个 $m$ 维的向量 $y$ 。

首先，需要注意的是，矩阵的列数与向量的维数要匹配才可以进行相乘的运算；其次，为了得到新向量的对应元素 $y_i$ ，我们需要将矩阵 $A$ 中的第 $i$ 行元素与向量 $x$ 中的所有元素对应相乘再相加，即 $y_i=\sum_{j=1}^{n}A_{ij}\cdot x_{j}$ 。

接下来，我们给出一个在机器学习中运用矩阵与向量相乘的例子。
小技巧
在房价预测问题中，假如我们的模型得到了这样的一个假设函数 $h_\theta(x)=-40+0.25x$ ，现在我们要计算在这个假设函数下不同房子对应的预测房价，第一种做法，我们直接将房子大小 $x$ 依次代入到方程中计算即可，对应在编程中，我们可以先写出假设函数的方程，然后使用一个 $f or$ 循环计算；第二种做法，我们使用矩阵与向量的乘法来实现，我们令矩阵 $A =$ $\begin{bmatrix}1 & 2104 \\1 & 1416\\1 & 1534\\1 & 852\end{bmatrix}$ ，令向量 $x =$ $\begin{bmatrix}-40\\0.25\end{bmatrix}$ ，然后将二者相乘，我们会得到一个新的向量 $y =$ $\begin{bmatrix}h_\theta(2104)\\h_\theta(1416)\\h_\theta(1534)\\h_\theta(852)\end{bmatrix}$ ，新向量中的元素就是对应房子的房价预测值，对应在编程中，我们可以直接调用现成的矩阵库来实现矩阵与向量相乘的运算。

在机器学习中，更加推荐第二种做法，首先，这样做简化了代码；其次，这样做使得数据向量化，便于后续的处理，效率更高。

矩阵与矩阵的乘法

矩阵相乘
在这里插入图片描述
我们有一个 $m \times n$ 的矩阵 $A$ ，与一个 $n \times o$ 的矩阵 $B$ 相乘，可以得到一个 $m \times o$ 维的矩阵 $C$ 。

首先，需要注意的是，矩阵 $A$ 的列数与矩阵 $B$ 的行数要匹配才可以进行相乘的运算；其次，为了得到矩阵 $C$ 的对应元素 $C_{ij}$ ，我们需要将矩阵 $A$ 与矩阵 $B$ 中的第 $j$ 列元素对应相乘再相加得到 $C$ 的第 $j$ 列元素，即 $C_{j}=\sum_{i=1}^{n}A\cdot B_{ij}$ 。

所以，可以发现， $m \times n$ 维矩阵 $A$ 与 $n \times o$ 维矩阵 $B$ 的相乘，是先将矩阵 $B$ 分解为 $o$ 个 $n$ 维的向量，可知 $m \times n$ 矩阵 $A$ 与 $n$ 维向量相乘会得到 $m$ 维向量，再将 $o$ 个 $m$ 维的向量组合在一起得到 $m \times o$ 维的矩阵 $C$ 。

小技巧
运用矩阵与矩阵的乘法可以帮助我们快速在房价问题中计算出每个假设函数 $h_\theta(x)$ 下不同房子的房价预测值，这是矩阵相乘在机器学习中运用的一个例子，利用矩阵相乘还可以帮助我们实现更多功能，我们会在之后介绍。

矩阵乘法的性质

不满足交换律： $A×B\not =B×A$

结合律： $A \times B \times C = A \times (B \times C) = (A \times B) \times C$

单位矩阵 $I$ 或者 $I_{n×n}$ (单位矩阵是方阵)：

即主对角线上全是 $1$ ，其余位置全是 $0$ 的方阵称为单位矩阵

在实数的乘法里，我们有乘法单位 $1$ ，任何数乘上 $1$ 还是它本身，单位矩阵就可以理解成是矩阵乘法中的单位 $1$ ，所以有 $A_{m×n}×I_{n×n}=I_{m×m}×A_{m×n}=A_{m×n}$ ，注意矩阵相乘时的维度匹配问题

矩阵的逆

在实数中，我们都知道倒数的概念，即一个数乘上它的倒数等于 $1$ ，在矩阵中，也有“倒数”的概念，即矩阵的逆

如果现在有一个 $m \times n$ 的矩阵 $A$ ，存在一个矩阵 $B$ ，使得 $A \times B = I$ 或者 $B \times A = I$ ，那么，我们就称矩阵 $B$ 为矩阵 $A$ 的逆，记作 $A^{-1}$ 。