深度学习-必备的数学知识-线性代数2

占得世间一味愚

已于 2023-11-28 08:47:35 修改

阅读量1.3k

点赞数 37

分类专栏：深度学习文章标签：深度学习线性代数人工智能

于 2023-11-27 23:20:26 首次发布

本文链接：https://blog.csdn.net/m0_58480092/article/details/134657071

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

深度学习

必备的数学知识

线性代数

我们已经在线性代数1中讲解了四个重要概念：标量、向量、矩阵和张量。以及转置、矩阵相加、标量与矩阵相乘或相加和向量和矩阵相加。
这篇文章将为大家讲解矩阵乘积以及线性方程组。

矩阵乘积

两个矩阵的矩阵乘积(matrix product)是第三个矩阵。写作
$\mathbf{C}=\mathbf{A}\mathbf{B}$
为使矩阵乘积具有良定义，矩阵 $\mathbf{A}$ 的列数与矩阵 $\mathbf{B}$ 的行数必须相同。即 $\mathbf{A} \in R^{m\times n}$ , $\mathbf{B} \in R^{n\times p}$ 。那么矩阵 $C$ 的行数为m，列数为p，即 $\in R^{m \times p}$ 。
乘法操作定义为
$C_{i,j}=\sum_{k} A_{i,k}B_{k,j}$
两个矩阵标准乘积不是将对应元素的乘积，对应元素的乘积称之为元素对应乘积（element-wise product）或 Hadamard乘积（Hadamard product），记作 $\mathbf{A} \odot \mathbf{B}$ 。
两个相同维度的向量的点积（dot product，又称标量积和内积）是指两个向量对应元素的乘积的和。形式化的说，若 $\mathbf{x} \in R^m$ , $\mathbf{y} \in R^m$ ,则它们的点积定义为
$\mathbf{x} \cdot \mathbf{y}=\sum_{i}^{m}x_iy_i$
需要注意的是两个向量的点积是标量。
因为我们可以将向量看作一列的矩阵，所以我们可以将 $\mathbf{x} \cdot \mathbf{y}$ 看作矩阵乘积 $\mathbf{x}^T\mathbf{y}$ 。我们可以将 $\mathbf{C}=\mathbf{A}\mathbf{B}$ 中计算 $C_{i,j}$ 的过程看作是在计算 $\mathbf{A}$ 的第i行和 $\mathbf{B}$ 的第j列之间的点积。
矩阵乘积具有很多的性质，比如：
矩阵乘积服从分配律：
$\ \mathbf{A}(\mathbf{B}+\mathbf{C})=\mathbf{A}\mathbf{B}+\mathbf{A}\mathbf{C}$
矩阵乘积服从结合律：
$\mathbf{A}(\mathbf{B}\mathbf{C})=\mathbf{B}(\mathbf{A}\mathbf{C})$
但是矩阵乘积并不总是满足交换律：
$\mathbf{A}\mathbf{B} \neq \mathbf{B}\mathbf{A}$
这很好理解，因为矩阵乘积涉及到了行和列的点积。当计算两个矩阵的乘积时，我们是将第一个矩阵的行和第二个矩阵的列进行点积，如果交换两个矩阵的顺序，那么就是将第二个矩阵的行和第一个矩阵的列进行点积，这可能会得到完全不同的结果。
此外还有一个重要的原因是：转换两个矩阵的顺序后，这两个矩阵的乘积可能没有定义。例如:我们有一个 $\times n$ 的矩阵 $\mathbf{A}$ 和 $\times p$ 的矩阵 $\mathbf{B}$ ，其中 $\mathbf{p \neq m}$ 。对于 $\mathbf{A}\mathbf{B}$ ，因为矩阵 $\mathbf{A}$ 的列数和矩阵 $\mathbf{B}$ 行数相同，所以有定义。但 $\mathbf{B}\mathbf{A}$ 是没有定义的，因为矩阵 $\mathbf{B}$ 的列数和矩阵 $\mathbf{A}$ 行数不相同。
对于矩阵的转置我们有：
$(\mathbf{A}\mathbf{B})^T=\mathbf{B}^T\mathbf{A}^T$

两个向量的点积满足交换律：
$\mathbf{x}^T\mathbf{y}=\mathbf{y}^T\mathbf{x}$
这一点很好证明：
我们对 $\mathbf{x}^T\mathbf{y}$ 进行转置可以到 $\mathbf{y}^T\mathbf{x}$
我们知道两个向量的点积也是标量,而标量的转置是自身。所以我们有
$\mathbf{x}^T\mathbf{y}= (\mathbf{x}\mathbf{y})^T=\mathbf{y}^T\mathbf{x}$

线性方程组

形如
$a_1x_1+a_2x_2+...+a_nx_n=b$
的方程称为线性方程，其中 $a_1,a_2,...,a_3$ 和 $b$ 是实数， $x_1,x_2,...,x_n$ 是未知量。
大家是否觉得这个式子很熟悉？是的，我们可以将它表示为两个向量 $\mathbf{a}$ 和 $\mathbf{x}$ 的点积等于 $b$ 。即
$\mathbf{a}^T \mathbf{x}=b$
其中 $\mathbf{a}$ 是已知的实数向量， $b$ 为标量， $\mathbf{x}$ 为未知向量。
由n个线性方程组成的方程组称为线性方程组。
形如
$a_{1,1}x_1+a_{1，2}x_2+...+a_{1,n}x_n=b_1\\ a_{2,1}x_1+a_{2，2}x_2+...+a_{2,n}x_n=b_2\\ ....\\ a_{m,1}x_1+a_{m，2}x_2+...+a_{m,n}x_n=b_m$
这个方程组相当于 $\times n$ 的矩阵 $\mathbf{A}$ 和一个只有 $n$ 维向量（n行1列的矩阵） $\mathbf{x}$ 的乘积，结果是m维向量(m行一列的矩阵) $\mathbf{b}$ 。用数学语言表示：
$\mathbf{A}\mathbf{x}=\mathbf{b}\\ （1）$
其中 $\mathbf{A} \in R^{m\times n}$ 是已知矩阵, $\mathbf{b} \in R^m$ 是已知向量， $\mathbf{x} \in R^n$ 是未知向量。
我们可以将上式重写为
$\mathbf{A}_{1,:}\mathbf{x}=b_1\\ \mathbf{A}_{2,:}\mathbf{x}=b_2\\ ....\\ \mathbf{A}_{m,:}\mathbf{x}=b_m\\$

对于大部分的矩阵 $\mathbf{A}$ ，我们都可以通过矩阵逆(matrix inversion)来求解式(1)。
矩阵 $\mathbf{A}$ 的矩阵逆记作 $\mathbf{A^{-1}}$ ,其定义的矩阵满足如下条件
$\mathbf{A}\mathbf{A^{-1}}=\mathbf{I}_{n}$
上式中的 $\mathbf{I}_{n}$ 是单位矩阵（identity matrix）。
任意向量和单位矩阵相乘，都不会改变。我们将保持n维向量不变的单位矩阵记作 $\mathbf{I}_{n}$ .
形式上， $\mathbf{I} \in R^{n \times n}$
$\forall \mathbf{x} \in R^{n} , \mathbf{I}_n\mathbf{x}=\mathbf{x}$
单位矩阵的结构很简单：所有沿主对角线的元素都是1，而其他位置的所有元素都是0。如下所示：
$\begin{bmatrix} 1 &0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 1\\ \end{bmatrix}$
我们可以利用矩阵逆的特性,通过以下步骤求解式(1)
$\mathbf{A}\mathbf{x}=\mathbf{b}\\ \mathbf{A}^{-1}\mathbf{A}\mathbf{x}=\mathbf{A}^{-1}\mathbf{b}\\ \mathbf{I}_{n}\mathbf{x}=\mathbf{A}^{-1}\mathbf{b}\\ \mathbf{x}=\mathbf{A}^{-1}\mathbf{b}$
本系列教程所选教材是深度学习领域奠基性的经典教材《DEEP LEARNING》,它是由LanGoodfello、YoshuaBengio和AraonCourille所撰写。建议有条件的去研读原书，本文章是对这本教材的总结和理解。如有问题，恳请指正。