深度学习花书第二章线性代数

最新推荐文章于 2024-09-21 00:06:25 发布

recusant

最新推荐文章于 2024-09-21 00:06:25 发布

阅读量344

点赞数

分类专栏：《深度学习》笔记文章标签：线性代数深度学习

本文链接：https://blog.csdn.net/weixin_38047275/article/details/86716926

版权

《深度学习》笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

线性代数

2.1 标量,向量,矩阵,张量
2.2 矩阵和向量相乘
2.3 单位矩阵和逆矩阵
2.4 线性相关和生成子空间
2.5 范数
2.6特殊类型的矩阵和向量
2.7特征分解
2.8奇异值分解
2.9 Moore-Penrose伪逆
2.10 迹运算
2.11 行列式

2.1 标量,向量,矩阵,张量

标量(scalar)：一个标量就是一个单独的数
向量(vector):一个向量是一列数。这些数是有序排列的。通过次序中的索引，我们可以确定每个单独的数。当需要明确表示向量中的元素时，我们会将元素排列成一个方括号包围的纵列: $x=\begin{bmatrix} x_1 \\x_2 \\ x_3 \\\vdots\\x_n\end{bmatrix}$
矩阵(matrix):矩阵是一个二维数组，其中的每一个元素由两个索引所确定。当我们需要明确表示矩阵中的元素时，我们将它们写在用方括号括起来的数组中： $\begin{bmatrix} A_{1,1} & A_{1,2} \\ A_{2,1} & A_{2,2} \\ \end{bmatrix}$
张量：在某些情况下，我们会讨论坐标超过两维的数组。一般地，一个数组中的元素分布在若干维坐标的规则网格中，我们称之为张量。

转置：矩阵的重要操作之一，将矩阵的行列互换得到的新矩阵称为转置矩阵。
$A_{i,j})^T=A_{j,i}$
只要矩阵形状一样我们可以把两个矩阵相加(对应位置元素相加)：
$C = A + B$ 即 $C_{i,j}=A_{i,j}+B_{i,j}$
标量和矩阵相乘，或是和矩阵相加时，我们只需将其与矩阵的每个元素相乘或相加，比如 $D=a\cdot B+c$ 其中 $D_{i,j}=a\cdot B_{i,j}+c$
在深度学习中也允许矩阵和向量相加，比如 $C = A + b$ 其中 $C_{i,j}=A_{i,j}+b_{j}$ 换言之，向量 $b$ 和矩阵 $A$ 的每一行相加。这个简写方法使我们无需在加法操作前定义一个将向量 $b$ 复制到每一行而生成的矩阵。这种隐式地复制向量 $b$ 到很多位置的方式，被称为广播(broadcasting)。

2.2 矩阵和向量相乘

矩阵乘法是矩阵运算中最重要的操作之一。两个矩阵 $A$ 和 $B$ 的矩阵乘积是第三个矩阵 $C$ 。为了使乘法定义良好，矩阵 $A$ 的列数必须和矩阵 $B$ 的行数相等。如果矩阵 $A$ 的形状是 $m\times n$ ，矩阵 $B$ 的形状是 $n\times p$ ，那么矩阵 $C$ 的形状是 $m\times p$ 。我们可以通过将两个或多个矩阵并列放置以书写矩阵乘法，例如 $C = A B$ 具体地，该乘法操作定义为 $C_{i,j}=\sum_kA_{i,k}B_{k,j}$
矩阵乘积服从分配率 $A (B + C) = A B + A C$ 也服从结合律 $A (B C) = (A B) C$ 但矩阵乘法并不满足交换律( $A B = B A$ 并非总是成立)，然而向量点积满足交换律 $x^Ty=y^Tx$ 矩阵转置也有如此性质 $AB)^T=B^TA^T$

我们可用线性代数符号表示线性方程组 $A x = b$ 其中 $A\in \mathbb{R}^{m \times n}$ 是已知矩阵， $b\in \mathbb{R}^m$ 是一个已知向量, $x\in \mathbb{R}^m$ 是要求解的未知向量。我们可以把上式重写为
$A_{1,1}x_1+A_{1,2}x_2+\cdots +A_{1,n}x_n=b_1\\A_{2,1}x_1+A_{2,2}x_2+\cdots +A_{2,n}x_n=b_2\\\vdots\\A_{m,1}x_1+A_{m,2}x_2+\cdots +A_{m,n}x_n=b_m\\$

2.3 单位矩阵和逆矩阵

单位矩阵：我们将保持 $n$ 维向量不变的单位矩阵记做 $I_n$ ,形式上 $\forall x \in \mathbb{R}^n,I_nx=x$ 即任意向量和单位矩阵相乘都不会改变。如图所示为 $I_3$
$\begin{bmatrix} 1 & 0 &0 \\ 0 & 1&0 \\ 0&0&1\end{bmatrix}$
矩阵 $A$ 的逆矩阵记作 $A^{-1}$ ,其定义的矩阵满足如下条件:
$A^{-1}A=I_n$ 我们可以通过如下步骤求解 $Ax=b\\A^{-1}Ax=A^{-1}b\\I_nx=A^{-1}b\\x=A^{-1}b$ 当然，这取决于我们能否找到一个逆矩阵 $A^{-1}$ 。

2.4 线性相关和生成子空间

如果逆矩阵 $A^{-1}$ 存在，那么 $A x = b$ 对于每一个向量b恰好存在一个解，但是，对于方程组而言，对于向量 $b$ 的某些值，有可能不存在解，或者存在无限多个解。在多于一个解但是少于无限多个解的情况是不可能发生的；因为如果 $x$ 和 $y$ 都是某方程组的解，则 $z = a x + (1 - a) y$
为了分析方程有多少个解，我们可以将 $A$ 的列向量看作从原点（元素都是零的向量）出发的不同方向，确定有多少种方法可以到达向量 $b$ 。在这个观点下，向量 $x$ 中的每个元素表示我们应该沿着这些方向走多远，即 $x_i$ 表示我们需要沿着第 $i$ 个向量的方向走多远： $Ax=\sum_ix_iA_{:,i}$ 一般而言这种组合成为线性组合(linear combination).
一组向量的生成子空间(span) 是原始向量线性组合后所能抵达的点的集合。确定 $A x = b$ 是否有解相当于确定向量 $b$ 是否在 $A$ 列向量的生成子空间中，这个特点的子空间成为 $A$ 的值域。
为了使方程 $A x = b$ 对于任意向量 $\in \mathbb{R}^m$ 都存在解，我们要求 $A$ 的列空间构成整个 $\mathbb{R}^m$ 。如果 $\mathbb{R}^m$ 中的某个点不在 $A$ 的列空间中，那么该点对应的 $b$ 会使得该方程没有解。矩阵 $A$ 的列空间是整个 $\mathbb{R}^m$ 的要求，意味着 $A$ 至少有 $m$ 列，即 $n\geq m$ 。否则， $A$ 列空间的维数会小于 $m$ 。例如，假设 $A$ 是一个 $3\times 2$ 的矩阵。目标 $b$ 是 $3$ 维的，但是 $x$ 只有 $2$ 维。所以无论如何修改 $x$ 的值，也只能描绘出 $\mathbb{R}^3$ 空间中的二维平面。当且仅当向量 $b$ 在该二维平面中时，该方程有解。

不等式 $n\geq m$ 仅是方程对每一点都有解的必要条件。这不是一个充分条件，因为有些列向量可能是冗余的。假设有一 $\mathbb{R}^{2\times 2}$ 中的矩阵，它的两个列向量是相同的。那么它的列空间和它的一个列向量作为矩阵的列空间是一样的。换言之，虽然该矩阵有 $2$ 列，但是它的列空间仍然只是一条线，不能涵盖整个 $\mathbb{R}^2$ 空间。正式的这种冗余成为线性相关(linear dependence),如果一组向量中的任意一个向量都不能表示成其他向量的线性组合，那么这组向量称为线性无关。

2.5 范数

在机器学习中经常使用范数来衡量向量大小。形式上 $L^p$ 范数定义为： $||x||_p=\left (\sum_i|x_i|^p\right)^{\frac 1p}$ 其中 $p\in \mathbb{R},p\geq 1$ 。
范数是将向量映射到非负值得函数，直观上说向量 $x$ 的范数衡量从原点到 $x$ 的距离。严格上说范数是满足以下条件的任意函数：

$\implies x=0$
$f(x+y)\leq f(x)+f(y)$ (三角不等式(triangle inequality))
$\forall a \in \mathbb{R},f(ax)=|a|f(x)$

常用的范数有 $L^2$ 范数，最大范数。
深度学习中也常用Frobrnius范数衡量矩阵大小：

$||A||_F=\sqrt{\sum_{i,j}A^2_{i,j}}$

2.6特殊类型的矩阵和向量

对角矩阵(diagonal matrix)：只有主对角线上含有非零元素。用 $d i a g (v)$ 表示对角元素由向量 $v$ 中元素给定对角方阵。
对称矩阵(symmetric)：矩阵是转置和自己相等的矩阵。即 $A=A^T$
单位向量(unit vector):具有单位范数的向量，即 $x||_2=1$
如果 $x^Ty=0$ 那么向量 $x$ 和 $y$ 正交，如果这些向量相互正交且范数为1，则成为标准正交(orthonormal)
正交矩阵：指行向量和列向量是分别标准正交的方阵，即 $A^TA=A^AT=I$ 这意味着 $A^{-1}=A^T$

2.7特征分解

特征分解(eigendecomposition)是使用最广的矩阵分解之一，即将矩阵分解为一组特征向量和特征值。
方阵 $A$ 的特征向量（eigenvector）是指与 $A$ 相乘后相当于对该向量进行缩放的非零向量 $v$ : $Av=\lambda v$
其中 $\lambda$ 成为这个特征向量的特征值(eigenvalue).
假设矩阵 $A$ 有 $n$ 个线性无关的特征向量 $\begin{Bmatrix} V^{(1)}, & \dots ,V^{(n)} \end{Bmatrix}$ ,对应着特征向量 $\begin{Bmatrix} \lambda _1, & \dots ,\lambda _n \end{Bmatrix}$ 。我们将特征向量连接成一个矩阵，使得每一列是一个特征向量: $V=\begin{bmatrix} \lambda _1, & \dots ,\lambda _n \end{bmatrix}$ ,同理将特征值连成向量 $\lambda=\begin{bmatrix} \lambda _1, & \dots ,\lambda _n \end{bmatrix}^{T}$ ,因此 $A$ 的特征分解可以记作 $A=Vdiag(\lambda)V^{-1}$
每一个实对称矩阵都可以分解成实特征向量和实特征值： $A=Q\Lambda Q^T$ 其中Q是 $A$ 特征向量组成的正交矩阵， $\Lambda$ 是对角矩阵。特征值 $\Lambda _{i,j}$ 对应的特征向量是矩阵 $Q$ 的第 $i$ 列，记作 $Q_{:,j}$ .

2.8奇异值分解

奇异值分解(singular value decomposition,.SVD)：将矩阵分解为奇异向量(singular value vector)和奇异值(singular value).每一个实数矩阵都有一个奇异值分解，但不一定都有特征分解。奇异值分解将矩阵分解为三个矩阵的乘积：
$A=UDV^T$
假设A是 $m\times n$ 的矩阵， $U$ 则是一个 $m\times m$ 的矩阵， $D$ 是一个 $m\times n$ 的矩阵， $V$ 是一个 $n\times n$ 的矩阵。 $U$ 和 $V$ 都定义为正交矩阵，而 $D$ 定义为对角矩阵。 $D$ 对角线上的元素成为矩阵 $A$ 的奇异值，矩阵 $U$ 的列向量成为左奇异向量，矩阵 $V$ 的列向量成为右奇异向量。