李宏毅《Linear Algebra》学习笔记

一、视频观看地址与PDF下载

网址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_LA18.html


二、笔记

1.什么是System以及Linear System的性质

在这里插入图片描述
线性系统的两个性质(假如 f ( x ) = x f(x)=x f(x)=x):

  1. f ( a + b ) = f ( a ) + f ( b ) f(a+b)=f(a)+f(b) f(a+b)=f(a)+f(b)
  2. f ( k x ) = k f ( x ) f(kx)=kf(x) f(kx)=kf(x)

个人觉得李宏毅老师给出的模型图很不错,直观形象:
在这里插入图片描述
Computer Graphics:对于一个物体的翻转(空间位置的变化),相当于是对物体每个点都进行线性变换。
比如物体的一个顶点是 [ x   y   z ] [x\ y\ z] [x y z] 经过线性变换变为 [ x ‘   y ‘   z ‘ ] [x^`\ y^` \ z^`] [x y z].
在这里插入图片描述


2.向量vector

假设 a = [ x   y ] T \boldsymbol a=[x\ y]^T a=[x y]T,空间中的 a \boldsymbol a a 可以理解为从原点 ( 0 , 0 ) (0,0) (0,0) ( x , y ) (x,y) (x,y) 的一条有向线段,也就是 x x x 轴上长度与 y y y 轴上长度的矢量叠加。那么数乘向量 λ × a \lambda \times \boldsymbol a λ×a 可以理解为将 x x x 轴与 y y y 轴长度分别变为 λ \lambda λ 倍后矢量叠加在一起,同时也可以理解为将原本叠加的向量变为 λ \lambda λ 倍。
在这里插入图片描述
向量的性质,我觉得可以为把向量理解为标量(Scalar)的不同方向的综合表示,那么对于标量的性质则同样适用于向量。例如结合律、交换律、分配律等。
在这里插入图片描述


3.矩阵Matrix

这里给出了矩阵的性质,其运算规律满足如下。值得一提的是,无论是vector还是matrix, A B = B A AB=BA AB=BA 并不是在所有情况下均适用。
在这里插入图片描述
矩阵的转置(Transpose)遵循 A i , j T = A i , j A^T_{i,j}=A_{i,j} Ai,jT=Ai,j,也就是将矩阵的第 i i i 行变成第 i i i 列。其中的性质可以通过想象得出:例如行→列→行相当于没变,一个数在不同时间乘以一个矩阵不会造成影响(至少在转置这里是这样)等。
在这里插入图片描述


4.矩阵与向量乘积(Matrix-vector product)以及两种理解

对于一个多元线性方程组如下图,输入为 x = [ x 1   x 2   x 3 . . . x n ] \boldsymbol x=[x_1\ x_2\ x_3...x_n] x=[x1 x2 x3...xn],经过一个线性变换后,输出
b = [ b 1   b 2   x 3 . . . b m ] \boldsymbol b=[b_1\ b_2\ x_3...b_m] b=[b1 b2 x3...bm],这个线性系统便是对 x \boldsymbol x x做了一个线性的处理,其处理的方法为矩阵 A \boldsymbol A A.
在这里插入图片描述
对一个系数矩阵 A m × n \boldsymbol A_{m\times n} Am×n和一个代表参数的向量 x n \boldsymbol x_{n} xn相乘,拿下图举例,有两种理解方式:

  1. 从行层面上理解:
    A \boldsymbol A A的两行表示在坐标系中如下图右侧所示;对照方程组,将向量中的 x 1   x 2 x_1\ x_2 x1 x2与矩阵行中的元素对应相乘后组成向量:首先是 A 1 , : \boldsymbol A_{1,:} A1,: x \boldsymbol x x相乘,发现结果为 0 0 0,证明二者垂直,而后是 A 2 , : \boldsymbol A_{2,:} A2,: x \boldsymbol x x相乘,得出结果。
  2. 从列层面上理解:
    数据域的 x 1 x_1 x1 A : , 1 \boldsymbol A_{:,1} A:,1相乘,相当于逆向延长两倍 [ 1   − 3 ] [1\ -3] [1 3] 这个向量,同理, x 2 x_2 x2 A : , 2 \boldsymbol A_{:,2} A:,2相乘,相当于正向缩小为原来长度的一半,二者形成的列向量叠加后与 1 1 1有相同的结果。
    在这里插入图片描述

这其实也就解释了为什么只有 A \boldsymbol A A的列数等于 B \boldsymbol B B的行数的两个矩阵才能相乘:从行来解释,需要使二者元素能够对应相乘,不至于找不到对应的元素;从列上来讲,只有二者数量相同,才能对于每个 x i x_i xi都有放缩的倍数。
在这里插入图片描述

矩阵与向量相乘的性质:
在这里插入图片描述


5.多元线性方程组解的个数

增广矩阵
在这里插入图片描述
多元线性方程组有多少解:
判断系数矩阵与增广矩阵的rank(秩)是否相等,相等则有解。进而判断 R ( A ) R(\boldsymbol A) R(A) x \boldsymbol x x的个数 n n n的关系,若相等,证明对于每个 x i x_i xi都能有一个指定值,若小于 n n n,证明存在 x i x_i xi的值没有被指定,可以为任意数。
其中,如果向量组是dependent(不独立)的,也就是说存在一组不全为 0 0 0 的系数与向量组相乘,使得最终结果为 0 0 0,那么向量组(或者说matrix)一定可以被表示 r a n k ( a ) &lt; n rank(\boldsymbol a)&lt;n rank(a)<n的形式,进而判断存在无穷多解。
如果向量组是independent,则 r a n k ( a ) = n rank(\boldsymbol a)=n rank(a)=n,也就是说只有一个解。
在这里插入图片描述


R o w E c h e l o n F o r m ( R E F ) Row Echelon Form(REF) RowEchelonFormREF
行阶梯矩阵,形如图 A A A. 需要注意的一点是,每个阶梯的高度固定为 1 1 1.

R e d u c e d R o w E c h e l o n F o r m ( R R E F ) Reduced Row Echelon Form(RREF) ReducedRowEchelonFormRREF
教材中翻译为行标准型矩阵,首先需要是 R E F REF REF,再者每个阶梯的首元素为 1 1 1,这列其他元素均为 0 0 0,形如图 B B B.
在这里插入图片描述


6.原始矩阵与RREF的关系

下面右侧的 R R E F RREF RREF是经过左侧初等变换后得到的,位于阶梯首元素位置的列向量(pivot column)组一定是线性无关的,因此可以判定原始矩阵中的这几个列向量也是线性无关的。
但是其他位置的列向量是否线性无关不能由 R R E F RREF RREF得到,例如右侧圈红的列向量组和左侧对应位置的列向量组,右侧线性无关而左侧线性相关。
在这里插入图片描述


7.高瘦型与矮胖型矩阵

一定线性相关的矩阵:含有 O \boldsymbol O O 的矩阵
一个矩阵如果含有零向量,它一定线性相关,如 λ 1 x 1 + λ 2 x 2 + λ 3 O = O \lambda_1x_1+\lambda_2x_2+\lambda_3O=O λ1x1+λ2x2+λ3O=O,可以令 λ 1 = λ 2 = 0 \lambda_1=\lambda_2=0 λ1=λ2=0,而 λ 3 \lambda_3 λ3不为零即可。
independent:高瘦型矩阵与矮胖型矩阵
对高瘦型矩阵 A m × n \boldsymbol A_{m\times n} Am×n来说,其一定dependent,举个最极端的例子:将高瘦型矩阵分为上下两部分,上部分为 I n \boldsymbol I_n In(因为高瘦型矩阵的 R a n k m a x = n Rank_{max}=n Rankmax=n),下部分为 O O O,含有 O O O 的矩阵一定线性相关,因此高瘦型矩阵线性相关。
在这里插入图片描述
对矮胖型矩阵 A m × n \boldsymbol A_{m\times n} Am×n来说,它一定不是independent的,因为横向放置的Standard vector最多只能放置 m m m个,加上后面的位置一定不会形成independent.
在这里插入图片描述
矮胖型矩阵一定有无穷多解(如果 R a n k ( A ) = R a n k ( A   b ) Rank(\boldsymbol A)=Rank(\boldsymbol A\ \boldsymbol b) Rank(A)=Rank(A b)
因为它的秩最多为 m i n ( m , n ) min(m,n) min(m,n)也就是 m m m,而 n &gt; m n&gt;m n>m,所以 R a n k ( A ) &lt; n Rank(\boldsymbol A)&lt;n Rank(A)<n,所以有无穷多解。
在这里插入图片描述


8.矩阵相乘及其效率

矩阵相乘规则: A i , : × B : , i \boldsymbol A_{i,:}\times \boldsymbol B_{:,i} Ai,:×B:,i
在这里插入图片描述
一个很实际的问题:矩阵相乘的顺序对运算速度的影响。
虽然使用交换律对矩阵相乘的结果没有什么影响,但是对于运算的次数,先进行分析,再视情况适当交换运算顺序会带来很大的效益(三个矩阵相乘的规则是按顺序两两相乘,因此运算次数是加的关系,不同结合情况对运算次数显然有不同影响)。
在这里插入图片描述
在这里插入图片描述


9.可逆矩阵

定义:
在这里插入图片描述
多个可逆矩阵相乘后取逆的结果:
在这里插入图片描述

矩阵转置的逆与矩阵逆的转置相同
在这里插入图片描述


10.Elementary Matrix(初等矩阵)

定义为将单位矩阵 I \boldsymbol I I 经过一次初等变换后得到的矩阵。假设单位矩阵到初等矩阵的变化为 k k k,则初等矩阵左乘一个矩阵 A \boldsymbol A A,就相当于对 A \boldsymbol A A进行 k k k操作。
例如下图,1中初等矩阵由单位矩阵Identity Matrix交换一行与二行得到,此初等矩阵与右侧矩阵相乘,相当于对右侧矩阵进行同样的行初等变换——交换两行。
在这里插入图片描述


11.求初等矩阵的逆

对初等矩阵 E \boldsymbol E E来说,其逆同样满足 E E − 1 = I \boldsymbol E\boldsymbol E^{-1}=\boldsymbol I EE1=I,初等矩阵可以理解为对单位矩阵进行一次初等变换,而求逆的过程可以理解为将变换后的内容再 恢复 回去,比如:
初等矩阵 E 1 \boldsymbol E1 E1经过单位矩阵交换 2   3 2\ 3 2 3行得到,那么其逆同样是交换 2   3 2\ 3 2 3行,也就是再换回去。
在这里插入图片描述
A n × n \boldsymbol A_{n\times n} An×n可逆是 A \boldsymbol A A可以表示为有限个初等矩阵乘积 的充要条件。也就是说, A − 1 \boldsymbol A^{-1} A1一定可以拆解成 k k k个初等矩阵相乘的形式。
在这里插入图片描述
A − 1 \boldsymbol A^{-1} A1的另一种方法(假设 A \boldsymbol A A可逆),将 [ A   I n ] [\boldsymbol A\ \boldsymbol I_n] [A In]经过有限次初等变换变为 [ I n   A − 1 ] [\boldsymbol I_n\ \boldsymbol A^{-1}] [In A1]
其原理可以解释为:假设 A \boldsymbol A A经过有限次初等变换变成了 I n \boldsymbol I_n In,那么这有限次初等变换的操作就可以用 k k k个初等矩阵相乘来表示,而这 k k k个初等矩阵相乘恰好为 A − 1 \boldsymbol A^{-1} A1 A − 1 \boldsymbol A^{-1} A1乘以矩阵右侧的 I n \boldsymbol I_n In,自然就是 A − 1 \boldsymbol A^{-1} A1.
在这里插入图片描述
另外一个例子,求 A − 1 C \boldsymbol A^{-1}\boldsymbol C A1C,只需将将 [ A   C ] [\boldsymbol A\ \boldsymbol C] [A C]经过有限次初等变换变为 [ I n   A − 1 C ] [\boldsymbol I_n\ \boldsymbol A^{-1}\boldsymbol C] [In A1C]即可,道理同上。
在这里插入图片描述


12.子空间、零空间、列(行)空间

subspace(子空间)
满足以下三个条件的vector set称为subspace,条件1表示:

  1. vector set 非空
  2. 0 倍的 u u u 也在subspace中

而条件2+条件3恰好是线性组合的两种方式。

在这里插入图片描述
一个例子,判断一个vector set是否为子空间,只需依次判断上面三个条件。
在这里插入图片描述
零空间
齐次线性方程组 A x = 0 Ax=0 Ax=0的所有解构成的subspace称为Null Space.
在这里插入图片描述
列空间和行空间:
列空间就是一个矩阵所有列的span 的集合,因此,列空间也就是矩阵(函数)的值域的集合。
R o w   A = C o l   A T Row\ A=Col\ A^T Row A=Col AT:可以把行空间翻转变成列空间,横着求竖着求都一样。
在这里插入图片描述
对于 A x = b Ax=b Ax=b有解,以下四种说法是等价的。

  1. A x = b Ax=b Ax=b有解
  2. b b b A A A 的列向量的线性组合
  3. b b b A A A 的列向量span成的
  4. b b b A A A 的列空间中

在这里插入图片描述


13.子空间的基(basis)

基的定义:对非零的子空间满足

  1. 存在一组线性无关的向量
  2. 此向量组可以组合成subspace中的任意向量

则此向量组称为子空间的基(Basis)。
Basis在百度翻译中的意思为:原因; 缘由; 基准; 准则; 方式; 基础; 要素; 基点;
个人觉得如果书中把“基”叫做“基准”会更方便后续的理解,在后面也会学到,把满足上面两条的概念叫做基准是不无道理的!因为basis确实可以作为一个基准。
在这里插入图片描述
一个矩阵的pivot columns(即每个阶梯的首元素所在的列的集合),一定是矩阵列空间的基,因为这些列一定线性无关,而矩阵中其他非pivot columns又可以由矩阵的pivot columns线性表示。
在这里插入图片描述
基的定理、维数dimension
在这里插入图片描述


14.列空间、零空间、行空间的关系(Column Space、Null Space、Row Space)

(1)列空间
前面提到过,列空间的pivot columns就是列空间的基,而pivot columns的个数恰好等于矩阵的秩,因此列空间的基的维数就等于矩阵的秩。所以有 D i m ( C o l   A ) = R a n k ( A ) Dim(Col\ A)=Rank(A) Dim(Col A)=Rank(A).
在这里插入图片描述
(2)零空间
零空间的free variable,也就是可变的(自由)变量。
在这里插入图片描述
零空间的基也就是其解的张成(Span)。因为零空间的解可以用free variable表示,所以基的维数应该等于变量的总个数减去free variable的个数,也就是 D i m ( N u l l   A ) = N u l l i t y ( A ) = n − R a n k ( A ) Dim(Null\ A)=Nullity(A)=n-Rank(A) Dim(Null A)=Nullity(A)=nRank(A).
在这里插入图片描述
(3)行空间
行空间基的维数 D i m ( A ) Dim(A) Dim(A)等于 R R E F ( A ) RREF(A) RREF(A)中非零行的个数,也就是 D i m ( R o w   A ) = R a n k ( A ) Dim(Row\ A)=Rank(A) Dim(Row A)=Rank(A).
在这里插入图片描述
(4)总结

  1. D i m ( C o l   A ) + D i m ( N u l l   A ) = R a n k ( A ) + N u l l i t y ( A ) = n Dim(Col\ A)+Dim(Null\ A)=Rank(A)+Nullity(A)=n Dim(Col A)+Dim(Null A)=Rank(A)+Nullity(A)=n
  2. D i m ( C o l   A ) = D i m ( R o w   A ) = R a n k ( A ) Dim(Col\ A)=Dim(Row\ A)=Rank(A) Dim(Col A)=Dim(Row A)=Rank(A)

(5)推理 R a n k ( A ) = R a n k ( A T ) Rank(A)=Rank(A^T) Rank(A)=Rank(AT)

D i m ( C o l   A ) = D i m ( R o w   A T ) = R a n k ( A T ) = D i m ( R o w   A ) = R a n k ( A ) Dim(Col\ A)=Dim(Row\ A^T)=Rank(A^T)=Dim(Row\ A)=Rank(A) Dim(Col A)=Dim(Row AT)=Rank(AT)=Dim(Row A)=Rank(A)


15.Coordinate System(坐标系)

坐标系就相当于基准,便于将一个向量变得有意义,同一个向量在不同的基准下表示的内容自然不同。
拿下图举例,在左图中表示为 [ 8    4 ] [8\ \ 4] [8  4]的向量,在右图的坐标系中却被表示为 [ 6    − 2 ] [6\ \ -2] [6  2].
在这里插入图片描述
满足下面两条的向量才可以被作为一个坐标系的基准

  1. 此向量组 B \mathcal{B} B 张成 R n R^n Rn
  2. 此向量组线性无关

将这两个条件结合在一起,不难发现这其实就是子空间的基的定义。因此,子空间的基就是子空间的坐标系的基准。

在这里插入图片描述
之所以使用子空间的基作为坐标系的基准,是因为这样才能保证每个向量都有唯一的表示方法。
证明:
假设对每个向量都有两个不同的表示方法,那么将这两种不同的表示方法代入得出的结果应该是相等的,又因为基 B \mathcal B B是线性无关的,当且仅当 a n = b n a_n=b_n an=bn时成立,因此不存在两种不同的表示。也就是以basis作为基准的坐标系中,每个向量只存在唯一的表示方法。
在这里插入图片描述
在这里插入图片描述
B B B为子空间的基, [ v ] B [v]_{\mathcal{B}} [v]B为笛卡尔坐标系下的 v v v 向量在其他坐标系 B \mathcal{B} B 下的表示。
笛卡尔坐标系与其他坐标系间的转换

(1)其他坐标系 → 直角坐标系: v = B [ v ] B v=B[v]_{\mathcal{B}} v=B[v]B

(2)直角坐标系 → 其他坐标系: [ v ] B = B − 1 v [v]_{\mathcal{B}}=B^{-1}v [v]B=B1v

可以这样类比理解:
k k k位的 N N N进制转化为十进制需要从低位开始依次用系数乘以 N k N^k Nk
又因为基 B \mathcal B B 一定线性无关,所以可以用与矩阵的逆相乘的方式求出反向的解。

在这里插入图片描述


16.similar(相似)

这里是以坐标系的变换来引入“相似”这个概念的。
假设在笛卡尔坐标系中的一个点 [ x 1   x 2 ] [x_1\ x_2] [x1 x2],经过一条已知直线 L \boldsymbol L L 的翻转对应的点为 T ( [ x 1   x 2 ] ) T([x_1\ x_2]) T([x1 x2]),求翻转的线性关系(一个矩阵)。
在这里插入图片描述
  对于求一个点关于直线 L \boldsymbol L L 翻转的线性关系,由于这条直线并非 x x x轴或者 y y y轴,因此翻转对应的线性关系很难得出。
  假设我们以 x x x 轴为镜面进行翻转,线性关系是很容易得到的。 因为笛卡尔坐标系可以理解为是二维的单位矩阵: [ 1 0 0 1 ] \begin{bmatrix} 1&amp; 0 \\ 0 &amp; 1 \end{bmatrix} [1001];翻转后,相当于 x x x轴元素不变, y y y轴变为 − y -y y,因此线性关系可以表示为: T = [ 1 0 0 − 1 ] T=\begin{bmatrix}1&amp;0\\0&amp;-1\end{bmatrix} T=[1001].

基于这种思想,可以利用上一小节学到的知识,通过变换坐标系的方法来求解关系 T T T

  1. 将直线 L \boldsymbol L L 作为新的坐标系的 x x x轴,取与之垂直向上的向量作为 y y y轴,建立新坐标系。
  2. 新坐标系下,翻转关系 [ T ] B = [ 1 0 0 − 1 ] [T]_{\boldsymbol B}=\begin{bmatrix}1&amp;0\\0&amp;-1\end{bmatrix} [T]B=[1001]
  3. 根据新坐标系下的 [ T ] B [T]_{\boldsymbol B} [T]B,求出笛卡尔坐标系的 T T T.

那么,笛卡尔坐标系下的 T T T 应该怎么求呢?下面是分析过程:
  对照下面的图,位于下方的是笛卡尔坐标系,位于上方的是 B \boldsymbol B B坐标系,笛卡尔坐标系中的 v v v 通过关系 [ T ] [T] [T] 变为输出结果 T ( v ) T(v) T(v).
  对于其他坐标系,在上一小节提到过二者的变换关系,即: [ v ] B = B − 1 v [v]_{\boldsymbol B}={\boldsymbol B}^{-1}v [v]B=B1v,根据这个变换关系,进而求得笛卡尔坐标系到其他坐标系的函数变换。

事实上, v → T ( v ) v→T(v) vT(v) v → [ v ] B → [ T ( v ) ] B → T ( v ) v→[v]_{\boldsymbol B}→[T(v)]_{\boldsymbol B}→T(v) v[v]B[T(v)]BT(v) 是殊途同归的,因此, [ T ] [T] [T]可以表示为:
[ T ] = B − 1 [ T ] B B [T]={\boldsymbol B}^{-1}[T]_{\boldsymbol B}{\boldsymbol B} [T]=B1[T]BB写成一般情况也就是:
[ T ] B = B − 1 A B [T]_{\boldsymbol B}={\boldsymbol B}^{-1}{\boldsymbol A}{\boldsymbol B} [T]B=B1AB不难发现, [ T ] B [T]_{\boldsymbol B} [T]B [ T ] [T] [T] 虽然所处的坐标系不同,但是它们想要实现的作用是相同的——参考上面的例子,二者均实现翻转的功能。对于这样的变换 [ T ] [T] [T] [ T ] B [T]_{\boldsymbol B} [T]B(实现功能不变,只不过为了方便操作,改变了坐标系),就将它们叫做相似(similar)。
在这里插入图片描述


17.特征值与特征向量(Eigenvalues and Eigenvectors)

定义的理解:
对一个向量 v v v 进行线性操作 A A A,操作后使 v v v 放 / 缩到原本的 λ \lambda λ 倍,则称 λ \lambda λ 为特征值, v v v 为特征向量。
需要注意的是,向量 v v v 是非零的。
在这里插入图片描述
(1)一个特征向量一定对应单一的特征值
(2)一个特征值可以对应多个特征向量
下面的举的例子,二者特征向量不同,单特征值相同。
在这里插入图片描述
判断一个标量是否为特征值,需要先判断 A v = 0 Av=0 Av=0是否只有零解,若是,证明不存在特征向量,也就不存在特征值。
在这里插入图片描述
求一个矩阵的特征向量,实际上就是求满足特征多项式的 λ \lambda λ,进而带入求得特征向量。
在这里插入图片描述
通常来说,矩阵 A A A R R E F ( A ) RREF(A) RREF(A) 具有不同的特征多项式,因此他们的特征向量不同。
而一个矩阵和它的相似矩阵具有相同的特征多项式,这也就意味着相似的矩阵具有相同的特征向量。
在这里插入图片描述

  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值