李宏毅《Linear Algebra》学习笔记

最新推荐文章于 2024-01-16 15:06:23 发布

摩霄志在潜修羽

最新推荐文章于 2024-01-16 15:06:23 发布

阅读量1.8k

点赞数 1

分类专栏：数学基础

本文链接：https://blog.csdn.net/cprimesplus/article/details/95247030

版权

数学基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

一、视频观看地址与PDF下载

网址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_LA18.html

二、笔记

1.什么是System以及Linear System的性质

在这里插入图片描述
线性系统的两个性质（假如 $f (x) = x$ ）：

$f (a + b) = f (a) + f (b)$
$f (k x) = k f (x)$

个人觉得李宏毅老师给出的模型图很不错，直观形象：
在这里插入图片描述
Computer Graphics：对于一个物体的翻转（空间位置的变化），相当于是对物体每个点都进行线性变换。
比如物体的一个顶点是 $[x\ y\ z]$ 经过线性变换变为 $x^`\ y^` \ z^`]$ .

2.向量vector

假设 $\boldsymbol a=[x\ y]^T$ ，空间中的 $\boldsymbol a$ 可以理解为从原点 $(0, 0)$ 到 $(x, y)$ 的一条有向线段，也就是 $x$ 轴上长度与 $y$ 轴上长度的矢量叠加。那么数乘向量 $\lambda \times \boldsymbol a$ 可以理解为将 $x$ 轴与 $y$ 轴长度分别变为 $\lambda$ 倍后矢量叠加在一起，同时也可以理解为将原本叠加的向量变为 $\lambda$ 倍。
在这里插入图片描述
向量的性质，我觉得可以为把向量理解为标量（Scalar）的不同方向的综合表示，那么对于标量的性质则同样适用于向量。例如结合律、交换律、分配律等。

3.矩阵Matrix

这里给出了矩阵的性质，其运算规律满足如下。值得一提的是，无论是vector还是matrix， $A B = B A$ 并不是在所有情况下均适用。
在这里插入图片描述
矩阵的转置（Transpose）遵循 $A^T_{i,j}=A_{i,j}$ ，也就是将矩阵的第 $i$ 行变成第 $i$ 列。其中的性质可以通过想象得出：例如行→列→行相当于没变，一个数在不同时间乘以一个矩阵不会造成影响（至少在转置这里是这样）等。
在这里插入图片描述

4.矩阵与向量乘积（Matrix-vector product）以及两种理解

对于一个多元线性方程组如下图，输入为 $\boldsymbol x=[x_1\ x_2\ x_3...x_n]$ ，经过一个线性变换后，输出
为 $\boldsymbol b=[b_1\ b_2\ x_3...b_m]$ ，这个线性系统便是对 $\boldsymbol x$ 做了一个线性的处理，其处理的方法为矩阵 $\boldsymbol A$ .
在这里插入图片描述
对一个系数矩阵 $\boldsymbol A_{m\times n}$ 和一个代表参数的向量 $\boldsymbol x_{n}$ 相乘，拿下图举例，有两种理解方式：

从行层面上理解：
将 $\boldsymbol A$ 的两行表示在坐标系中如下图右侧所示；对照方程组，将向量中的 $x_1\ x_2$ 与矩阵行中的元素对应相乘后组成向量：首先是 $\boldsymbol A_{1,:}$ 与 $\boldsymbol x$ 相乘，发现结果为 $0$ ，证明二者垂直，而后是 $\boldsymbol A_{2,:}$ 与 $\boldsymbol x$ 相乘，得出结果。
从列层面上理解：
数据域的 $x_1$ 与 $\boldsymbol A_{:,1}$ 相乘，相当于逆向延长两倍 $[1\ -3]$ 这个向量，同理， $x_2$ 与 $\boldsymbol A_{:,2}$ 相乘，相当于正向缩小为原来长度的一半，二者形成的列向量叠加后与 $1$ 有相同的结果。

这其实也就解释了为什么只有 $\boldsymbol A$ 的列数等于 $\boldsymbol B$ 的行数的两个矩阵才能相乘：从行来解释，需要使二者元素能够对应相乘，不至于找不到对应的元素；从列上来讲，只有二者数量相同，才能对于每个 $x_i$ 都有放缩的倍数。
在这里插入图片描述

矩阵与向量相乘的性质：
在这里插入图片描述

5.多元线性方程组解的个数

增广矩阵
在这里插入图片描述
多元线性方程组有多少解：
判断系数矩阵与增广矩阵的rank（秩）是否相等，相等则有解。进而判断 $R(\boldsymbol A)$ 与 $\boldsymbol x$ 的个数 $n$ 的关系，若相等，证明对于每个 $x_i$ 都能有一个指定值，若小于 $n$ ，证明存在 $x_i$ 的值没有被指定，可以为任意数。
其中，如果向量组是dependent（不独立）的，也就是说存在一组不全为 $0$ 的系数与向量组相乘，使得最终结果为 $0$ ，那么向量组（或者说matrix）一定可以被表示 $rank(\boldsymbol a)<n$ 的形式，进而判断存在无穷多解。
如果向量组是independent，则 $rank(\boldsymbol a)=n$ ，也就是说只有一个解。
在这里插入图片描述

$R o w E c h e l o n F o r m （ R E F ）$
行阶梯矩阵，形如图 $A$ . 需要注意的一点是，每个阶梯的高度固定为 $1$ .

$R e d u c e d R o w E c h e l o n F o r m （ R R E F ）$
教材中翻译为行标准型矩阵，首先需要是 $R E F$ ，再者每个阶梯的首元素为 $1$ ，这列其他元素均为 $0$ ，形如图 $B$ .
在这里插入图片描述

6.原始矩阵与RREF的关系

下面右侧的 $R R E F$ 是经过左侧初等变换后得到的，位于阶梯首元素位置的列向量（pivot column）组一定是线性无关的，因此可以判定原始矩阵中的这几个列向量也是线性无关的。
但是其他位置的列向量是否线性无关不能由 $R R E F$ 得到，例如右侧圈红的列向量组和左侧对应位置的列向量组，右侧线性无关而左侧线性相关。
在这里插入图片描述

7.高瘦型与矮胖型矩阵

一定线性相关的矩阵：含有 $\boldsymbol O$ 的矩阵
一个矩阵如果含有零向量，它一定线性相关，如 $\lambda_1x_1+\lambda_2x_2+\lambda_3O=O$ ，可以令 $\lambda_1=\lambda_2=0$ ，而 $\lambda_3$ 不为零即可。
independent：高瘦型矩阵与矮胖型矩阵
对高瘦型矩阵 $\boldsymbol A_{m\times n}$ 来说，其一定dependent，举个最极端的例子：将高瘦型矩阵分为上下两部分，上部分为 $\boldsymbol I_n$ （因为高瘦型矩阵的 $Rank_{max}=n$ ），下部分为 $O$ ，含有 $O$ 的矩阵一定线性相关，因此高瘦型矩阵线性相关。
在这里插入图片描述
对矮胖型矩阵 $\boldsymbol A_{m\times n}$ 来说，它一定不是independent的，因为横向放置的Standard vector最多只能放置 $m$ 个，加上后面的位置一定不会形成independent.

矮胖型矩阵一定有无穷多解（如果 $Rank(\boldsymbol A)=Rank(\boldsymbol A\ \boldsymbol b)$ ）
因为它的秩最多为 $m i n (m, n)$ 也就是 $m$ ，而 $n > m$ ，所以 $Rank(\boldsymbol A)<n$ ，所以有无穷多解。
在这里插入图片描述

8.矩阵相乘及其效率

矩阵相乘规则： $\boldsymbol A_{i,:}\times \boldsymbol B_{:,i}$
在这里插入图片描述
一个很实际的问题：矩阵相乘的顺序对运算速度的影响。
虽然使用交换律对矩阵相乘的结果没有什么影响，但是对于运算的次数，先进行分析，再视情况适当交换运算顺序会带来很大的效益（三个矩阵相乘的规则是按顺序两两相乘，因此运算次数是加的关系，不同结合情况对运算次数显然有不同影响）。
在这里插入图片描述

9.可逆矩阵

定义：
在这里插入图片描述
多个可逆矩阵相乘后取逆的结果：

矩阵转置的逆与矩阵逆的转置相同
在这里插入图片描述

10.Elementary Matrix（初等矩阵）

定义为将单位矩阵 $\boldsymbol I$ 经过一次初等变换后得到的矩阵。假设单位矩阵到初等矩阵的变化为 $k$ ，则初等矩阵左乘一个矩阵 $\boldsymbol A$ ，就相当于对 $\boldsymbol A$ 进行 $k$ 操作。
例如下图，1中初等矩阵由单位矩阵Identity Matrix交换一行与二行得到，此初等矩阵与右侧矩阵相乘，相当于对右侧矩阵进行同样的行初等变换——交换两行。
在这里插入图片描述

11.求初等矩阵的逆

对初等矩阵 $\boldsymbol E$ 来说，其逆同样满足 $\boldsymbol E\boldsymbol E^{-1}=\boldsymbol I$ ，初等矩阵可以理解为对单位矩阵进行一次初等变换，而求逆的过程可以理解为将变换后的内容再恢复回去，比如：
初等矩阵 $\boldsymbol E1$ 经过单位矩阵交换 $2\ 3$ 行得到，那么其逆同样是交换 $2\ 3$ 行，也就是再换回去。
在这里插入图片描述
$\boldsymbol A_{n\times n}$ 可逆是 $\boldsymbol A$ 可以表示为有限个初等矩阵乘积的充要条件。也就是说， $\boldsymbol A^{-1}$ 一定可以拆解成 $k$ 个初等矩阵相乘的形式。

求 $\boldsymbol A^{-1}$ 的另一种方法（假设 $\boldsymbol A$ 可逆），将 $[\boldsymbol A\ \boldsymbol I_n]$ 经过有限次初等变换变为 $[\boldsymbol I_n\ \boldsymbol A^{-1}]$ 。
其原理可以解释为：假设 $\boldsymbol A$ 经过有限次初等变换变成了 $\boldsymbol I_n$ ，那么这有限次初等变换的操作就可以用 $k$ 个初等矩阵相乘来表示，而这 $k$ 个初等矩阵相乘恰好为 $\boldsymbol A^{-1}$ ， $\boldsymbol A^{-1}$ 乘以矩阵右侧的 $\boldsymbol I_n$ ，自然就是 $\boldsymbol A^{-1}$ .
在这里插入图片描述
另外一个例子，求 $\boldsymbol A^{-1}\boldsymbol C$ ，只需将将 $[\boldsymbol A\ \boldsymbol C]$ 经过有限次初等变换变为 $[\boldsymbol I_n\ \boldsymbol A^{-1}\boldsymbol C]$ 即可，道理同上。

12.子空间、零空间、列（行）空间

subspace（子空间）
满足以下三个条件的vector set称为subspace，条件1表示：

vector set 非空
0 倍的 $u$ 也在subspace中

而条件2+条件3恰好是线性组合的两种方式。

在这里插入图片描述
一个例子，判断一个vector set是否为子空间，只需依次判断上面三个条件。

零空间
齐次线性方程组 $A x = 0$ 的所有解构成的subspace称为Null Space.

列空间和行空间：
列空间就是一个矩阵所有列的span 的集合，因此，列空间也就是矩阵（函数）的值域的集合。
$Row\ A=Col\ A^T$ ：可以把行空间翻转变成列空间，横着求竖着求都一样。
在这里插入图片描述
对于 $A x = b$ 有解，以下四种说法是等价的。

$A x = b$ 有解
$b$ 是 $A$ 的列向量的线性组合
$b$ 是 $A$ 的列向量span成的
$b$ 在 $A$ 的列空间中

在这里插入图片描述

13.子空间的基（basis）

基的定义：对非零的子空间满足

存在一组线性无关的向量
此向量组可以组合成subspace中的任意向量

则此向量组称为子空间的基（Basis）。
Basis在百度翻译中的意思为：原因; 缘由; 基准; 准则; 方式; 基础; 要素; 基点;
个人觉得如果书中把“基”叫做“基准”会更方便后续的理解，在后面也会学到，把满足上面两条的概念叫做基准是不无道理的！因为basis确实可以作为一个基准。
在这里插入图片描述
一个矩阵的pivot columns(即每个阶梯的首元素所在的列的集合)，一定是矩阵列空间的基，因为这些列一定线性无关，而矩阵中其他非pivot columns又可以由矩阵的pivot columns线性表示。

基的定理、维数dimension

14.列空间、零空间、行空间的关系（Column Space、Null Space、Row Space）

（1）列空间
前面提到过，列空间的pivot columns就是列空间的基，而pivot columns的个数恰好等于矩阵的秩，因此列空间的基的维数就等于矩阵的秩。所以有 $Dim(Col\ A)=Rank(A)$ .
在这里插入图片描述
（2）零空间
零空间的free variable，也就是可变的（自由）变量。

零空间的基也就是其解的张成（Span）。因为零空间的解可以用free variable表示，所以基的维数应该等于变量的总个数减去free variable的个数，也就是 $Dim(Null\ A)=Nullity(A)=n-Rank(A)$ .
在这里插入图片描述
（3）行空间
行空间基的维数 $D i m (A)$ 等于 $R R E F (A)$ 中非零行的个数，也就是 $Dim(Row\ A)=Rank(A)$ .

（4）总结

$Dim(Col\ A)+Dim(Null\ A)=Rank(A)+Nullity(A)=n$
$Dim(Col\ A)=Dim(Row\ A)=Rank(A)$

（5）推理 $Rank(A)=Rank(A^T)$

$Dim(Col\ A)=Dim(Row\ A^T)=Rank(A^T)=Dim(Row\ A)=Rank(A)$

15.Coordinate System（坐标系）

坐标系就相当于基准，便于将一个向量变得有意义，同一个向量在不同的基准下表示的内容自然不同。
拿下图举例，在左图中表示为 $[8\ \ 4]$ 的向量，在右图的坐标系中却被表示为 $[6\ \ -2]$ .
在这里插入图片描述
满足下面两条的向量才可以被作为一个坐标系的基准

此向量组 $\mathcal{B}$ 张成 $R^n$
此向量组线性无关

将这两个条件结合在一起，不难发现这其实就是子空间的基的定义。因此，子空间的基就是子空间的坐标系的基准。

在这里插入图片描述
之所以使用子空间的基作为坐标系的基准，是因为这样才能保证每个向量都有唯一的表示方法。
证明：
假设对每个向量都有两个不同的表示方法，那么将这两种不同的表示方法代入得出的结果应该是相等的，又因为基 $\mathcal B$ 是线性无关的，当且仅当 $a_n=b_n$ 时成立，因此不存在两种不同的表示。也就是以basis作为基准的坐标系中，每个向量只存在唯一的表示方法。
在这里插入图片描述

设 $B$ 为子空间的基， $[v]_{\mathcal{B}}$ 为笛卡尔坐标系下的 $v$ 向量在其他坐标系 $\mathcal{B}$ 下的表示。
笛卡尔坐标系与其他坐标系间的转换

（1）其他坐标系 → 直角坐标系： $v=B[v]_{\mathcal{B}}$

（2）直角坐标系 → 其他坐标系： $[v]_{\mathcal{B}}=B^{-1}v$

可以这样类比理解：
$k$ 位的 $N$ 进制转化为十进制需要从低位开始依次用系数乘以 $N^k$ 。
又因为基 $\mathcal B$ 一定线性无关，所以可以用与矩阵的逆相乘的方式求出反向的解。

在这里插入图片描述

16.similar（相似）

这里是以坐标系的变换来引入“相似”这个概念的。
假设在笛卡尔坐标系中的一个点 $x_1\ x_2]$ ，经过一条已知直线 $\boldsymbol L$ 的翻转对应的点为 $T([x_1\ x_2])$ ，求翻转的线性关系（一个矩阵）。
在这里插入图片描述
对于求一个点关于直线 $\boldsymbol L$ 翻转的线性关系，由于这条直线并非 $x$ 轴或者 $y$ 轴，因此翻转对应的线性关系很难得出。
假设我们以 $x$ 轴为镜面进行翻转，线性关系是很容易得到的。 因为笛卡尔坐标系可以理解为是二维的单位矩阵： $\begin{bmatrix} 1& 0 \\ 0 & 1 \end{bmatrix}$ ；翻转后，相当于 $x$ 轴元素不变， $y$ 轴变为 $- y$ ，因此线性关系可以表示为： $T=\begin{bmatrix}1&0\\0&-1\end{bmatrix}$ .

基于这种思想，可以利用上一小节学到的知识，通过变换坐标系的方法来求解关系 $T$ ：

将直线 $\boldsymbol L$ 作为新的坐标系的 $x$ 轴，取与之垂直向上的向量作为 $y$ 轴，建立新坐标系。
新坐标系下，翻转关系 $[T]_{\boldsymbol B}=\begin{bmatrix}1&0\\0&-1\end{bmatrix}$
根据新坐标系下的 $[T]_{\boldsymbol B}$ ，求出笛卡尔坐标系的 $T$ .

那么，笛卡尔坐标系下的 $T$ 应该怎么求呢？下面是分析过程：
对照下面的图，位于下方的是笛卡尔坐标系，位于上方的是 $\boldsymbol B$ 坐标系，笛卡尔坐标系中的 $v$ 通过关系 $[T]$ 变为输出结果 $T (v)$ .
对于其他坐标系，在上一小节提到过二者的变换关系，即： $[v]_{\boldsymbol B}={\boldsymbol B}^{-1}v$ ，根据这个变换关系，进而求得笛卡尔坐标系到其他坐标系的函数变换。

事实上， $v \to T (v)$ 与 $v→[v]_{\boldsymbol B}→[T(v)]_{\boldsymbol B}→T(v)$ 是殊途同归的，因此， $[T]$ 可以表示为：
$[T]={\boldsymbol B}^{-1}[T]_{\boldsymbol B}{\boldsymbol B}$ 写成一般情况也就是：
$[T]_{\boldsymbol B}={\boldsymbol B}^{-1}{\boldsymbol A}{\boldsymbol B}$ 不难发现， $[T]_{\boldsymbol B}$ 与 $[T]$ 虽然所处的坐标系不同，但是它们想要实现的作用是相同的——参考上面的例子，二者均实现翻转的功能。对于这样的变换 $[T]$ 与 $[T]_{\boldsymbol B}$ （实现功能不变，只不过为了方便操作，改变了坐标系），就将它们叫做相似（similar）。
在这里插入图片描述

17.特征值与特征向量（Eigenvalues and Eigenvectors）

定义的理解：
对一个向量 $v$ 进行线性操作 $A$ ，操作后使 $v$ 放 / 缩到原本的 $\lambda$ 倍，则称 $\lambda$ 为特征值， $v$ 为特征向量。
需要注意的是，向量 $v$ 是非零的。
在这里插入图片描述
（1）一个特征向量一定对应单一的特征值
（2）一个特征值可以对应多个特征向量
下面的举的例子，二者特征向量不同，单特征值相同。

判断一个标量是否为特征值，需要先判断 $A v = 0$ 是否只有零解，若是，证明不存在特征向量，也就不存在特征值。
在这里插入图片描述
求一个矩阵的特征向量，实际上就是求满足特征多项式的 $\lambda$ ，进而带入求得特征向量。

通常来说，矩阵 $A$ 和 $R R E F (A)$ 具有不同的特征多项式，因此他们的特征向量不同。
而一个矩阵和它的相似矩阵具有相同的特征多项式，这也就意味着相似的矩阵具有相同的特征向量。
在这里插入图片描述

摩霄志在潜修羽

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
李宏毅《Linear Algebra》学习笔记

视频观看地址与PDF下载网址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_LA18.html笔记1.什么是System以及Linear System的性质线性系统的两个性质（假如f(x)=xf(x)=xf(x)=x）：f(a+b)=f(a)+f(b)f(a+b)=f(a)+f(b)f(a+b)=f(a)+f(b)f(kx)=kf(x)f...
复制链接

扫一扫

专栏目录