文章目录
- 一、视频观看地址与PDF下载
- 二、笔记
- 1.什么是System以及Linear System的性质
- 2.向量vector
- 3.矩阵Matrix
- 4.矩阵与向量乘积(Matrix-vector product)以及两种理解
- 5.多元线性方程组解的个数
- 6.原始矩阵与RREF的关系
- 7.高瘦型与矮胖型矩阵
- 8.矩阵相乘及其效率
- 9.可逆矩阵
- 10.Elementary Matrix(初等矩阵)
- 11.求初等矩阵的逆
- 12.子空间、零空间、列(行)空间
- 13.子空间的基(basis)
- 14.列空间、零空间、行空间的关系(Column Space、Null Space、Row Space)
- 15.Coordinate System(坐标系)
- 16.similar(相似)
- 17.特征值与特征向量(Eigenvalues and Eigenvectors)
一、视频观看地址与PDF下载
网址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_LA18.html
二、笔记
1.什么是System以及Linear System的性质
线性系统的两个性质(假如
f
(
x
)
=
x
f(x)=x
f(x)=x):
- f ( a + b ) = f ( a ) + f ( b ) f(a+b)=f(a)+f(b) f(a+b)=f(a)+f(b)
- f ( k x ) = k f ( x ) f(kx)=kf(x) f(kx)=kf(x)
个人觉得李宏毅老师给出的模型图很不错,直观形象:
Computer Graphics:对于一个物体的翻转(空间位置的变化),相当于是对物体每个点都进行线性变换。
比如物体的一个顶点是
[
x
y
z
]
[x\ y\ z]
[x y z] 经过线性变换变为
[
x
‘
y
‘
z
‘
]
[x^`\ y^` \ z^`]
[x‘ y‘ z‘].
2.向量vector
假设
a
=
[
x
y
]
T
\boldsymbol a=[x\ y]^T
a=[x y]T,空间中的
a
\boldsymbol a
a 可以理解为从原点
(
0
,
0
)
(0,0)
(0,0) 到
(
x
,
y
)
(x,y)
(x,y) 的一条有向线段,也就是
x
x
x 轴上长度与
y
y
y 轴上长度的矢量叠加。那么数乘向量
λ
×
a
\lambda \times \boldsymbol a
λ×a 可以理解为将
x
x
x 轴与
y
y
y 轴长度分别变为
λ
\lambda
λ 倍后矢量叠加在一起,同时也可以理解为将原本叠加的向量变为
λ
\lambda
λ 倍。
向量的性质,我觉得可以为把向量理解为标量(Scalar)的不同方向的综合表示,那么对于标量的性质则同样适用于向量。例如结合律、交换律、分配律等。
3.矩阵Matrix
这里给出了矩阵的性质,其运算规律满足如下。值得一提的是,无论是vector还是matrix,
A
B
=
B
A
AB=BA
AB=BA 并不是在所有情况下均适用。
矩阵的转置(Transpose)遵循
A
i
,
j
T
=
A
i
,
j
A^T_{i,j}=A_{i,j}
Ai,jT=Ai,j,也就是将矩阵的第
i
i
i 行变成第
i
i
i 列。其中的性质可以通过想象得出:例如行→列→行相当于没变,一个数在不同时间乘以一个矩阵不会造成影响(至少在转置这里是这样)等。
4.矩阵与向量乘积(Matrix-vector product)以及两种理解
对于一个多元线性方程组如下图,输入为
x
=
[
x
1
x
2
x
3
.
.
.
x
n
]
\boldsymbol x=[x_1\ x_2\ x_3...x_n]
x=[x1 x2 x3...xn],经过一个线性变换后,输出
为
b
=
[
b
1
b
2
x
3
.
.
.
b
m
]
\boldsymbol b=[b_1\ b_2\ x_3...b_m]
b=[b1 b2 x3...bm],这个线性系统便是对
x
\boldsymbol x
x做了一个线性的处理,其处理的方法为矩阵
A
\boldsymbol A
A.
对一个系数矩阵
A
m
×
n
\boldsymbol A_{m\times n}
Am×n和一个代表参数的向量
x
n
\boldsymbol x_{n}
xn相乘,拿下图举例,有两种理解方式:
- 从行层面上理解:
将 A \boldsymbol A A的两行表示在坐标系中如下图右侧所示;对照方程组,将向量中的 x 1 x 2 x_1\ x_2 x1 x2与矩阵行中的元素对应相乘后组成向量:首先是 A 1 , : \boldsymbol A_{1,:} A1,:与 x \boldsymbol x x相乘,发现结果为 0 0 0,证明二者垂直,而后是 A 2 , : \boldsymbol A_{2,:} A2,:与 x \boldsymbol x x相乘,得出结果。 - 从列层面上理解:
数据域的 x 1 x_1 x1与 A : , 1 \boldsymbol A_{:,1} A:,1相乘,相当于逆向延长两倍 [ 1 − 3 ] [1\ -3] [1 −3] 这个向量,同理, x 2 x_2 x2与 A : , 2 \boldsymbol A_{:,2} A:,2相乘,相当于正向缩小为原来长度的一半,二者形成的列向量叠加后与 1 1 1有相同的结果。
这其实也就解释了为什么只有
A
\boldsymbol A
A的列数等于
B
\boldsymbol B
B的行数的两个矩阵才能相乘:从行来解释,需要使二者元素能够对应相乘,不至于找不到对应的元素;从列上来讲,只有二者数量相同,才能对于每个
x
i
x_i
xi都有放缩的倍数。
矩阵与向量相乘的性质:
5.多元线性方程组解的个数
增广矩阵
多元线性方程组有多少解:
判断系数矩阵与增广矩阵的rank(秩)是否相等,相等则有解。进而判断
R
(
A
)
R(\boldsymbol A)
R(A)与
x
\boldsymbol x
x的个数
n
n
n的关系,若相等,证明对于每个
x
i
x_i
xi都能有一个指定值,若小于
n
n
n,证明存在
x
i
x_i
xi的值没有被指定,可以为任意数。
其中,如果向量组是dependent(不独立)的,也就是说存在一组不全为
0
0
0 的系数与向量组相乘,使得最终结果为
0
0
0,那么向量组(或者说matrix)一定可以被表示
r
a
n
k
(
a
)
<
n
rank(\boldsymbol a)<n
rank(a)<n的形式,进而判断存在无穷多解。
如果向量组是independent,则
r
a
n
k
(
a
)
=
n
rank(\boldsymbol a)=n
rank(a)=n,也就是说只有一个解。
R
o
w
E
c
h
e
l
o
n
F
o
r
m
(
R
E
F
)
Row Echelon Form(REF)
RowEchelonForm(REF)
行阶梯矩阵,形如图
A
A
A. 需要注意的一点是,每个阶梯的高度固定为
1
1
1.
R
e
d
u
c
e
d
R
o
w
E
c
h
e
l
o
n
F
o
r
m
(
R
R
E
F
)
Reduced Row Echelon Form(RREF)
ReducedRowEchelonForm(RREF)
教材中翻译为行标准型矩阵,首先需要是
R
E
F
REF
REF,再者每个阶梯的首元素为
1
1
1,这列其他元素均为
0
0
0,形如图
B
B
B.
6.原始矩阵与RREF的关系
下面右侧的
R
R
E
F
RREF
RREF是经过左侧初等变换后得到的,位于阶梯首元素位置的列向量(pivot column)组一定是线性无关的,因此可以判定原始矩阵中的这几个列向量也是线性无关的。
但是其他位置的列向量是否线性无关不能由
R
R
E
F
RREF
RREF得到,例如右侧圈红的列向量组和左侧对应位置的列向量组,右侧线性无关而左侧线性相关。
7.高瘦型与矮胖型矩阵
一定线性相关的矩阵:含有
O
\boldsymbol O
O 的矩阵
一个矩阵如果含有零向量,它一定线性相关,如
λ
1
x
1
+
λ
2
x
2
+
λ
3
O
=
O
\lambda_1x_1+\lambda_2x_2+\lambda_3O=O
λ1x1+λ2x2+λ3O=O,可以令
λ
1
=
λ
2
=
0
\lambda_1=\lambda_2=0
λ1=λ2=0,而
λ
3
\lambda_3
λ3不为零即可。
independent:高瘦型矩阵与矮胖型矩阵
对高瘦型矩阵
A
m
×
n
\boldsymbol A_{m\times n}
Am×n来说,其一定dependent,举个最极端的例子:将高瘦型矩阵分为上下两部分,上部分为
I
n
\boldsymbol I_n
In(因为高瘦型矩阵的
R
a
n
k
m
a
x
=
n
Rank_{max}=n
Rankmax=n),下部分为
O
O
O,含有
O
O
O 的矩阵一定线性相关,因此高瘦型矩阵线性相关。
对矮胖型矩阵
A
m
×
n
\boldsymbol A_{m\times n}
Am×n来说,它一定不是independent的,因为横向放置的Standard vector最多只能放置
m
m
m个,加上后面的位置一定不会形成independent.
矮胖型矩阵一定有无穷多解(如果
R
a
n
k
(
A
)
=
R
a
n
k
(
A
b
)
Rank(\boldsymbol A)=Rank(\boldsymbol A\ \boldsymbol b)
Rank(A)=Rank(A b))
因为它的秩最多为
m
i
n
(
m
,
n
)
min(m,n)
min(m,n)也就是
m
m
m,而
n
>
m
n>m
n>m,所以
R
a
n
k
(
A
)
<
n
Rank(\boldsymbol A)<n
Rank(A)<n,所以有无穷多解。
8.矩阵相乘及其效率
矩阵相乘规则:
A
i
,
:
×
B
:
,
i
\boldsymbol A_{i,:}\times \boldsymbol B_{:,i}
Ai,:×B:,i
一个很实际的问题:矩阵相乘的顺序对运算速度的影响。
虽然使用交换律对矩阵相乘的结果没有什么影响,但是对于运算的次数,先进行分析,再视情况适当交换运算顺序会带来很大的效益(三个矩阵相乘的规则是按顺序两两相乘,因此运算次数是加的关系,不同结合情况对运算次数显然有不同影响)。
9.可逆矩阵
定义:
多个可逆矩阵相乘后取逆的结果:
矩阵转置的逆与矩阵逆的转置相同
10.Elementary Matrix(初等矩阵)
定义为将单位矩阵
I
\boldsymbol I
I 经过一次初等变换后得到的矩阵。假设单位矩阵到初等矩阵的变化为
k
k
k,则初等矩阵左乘一个矩阵
A
\boldsymbol A
A,就相当于对
A
\boldsymbol A
A进行
k
k
k操作。
例如下图,1中初等矩阵由单位矩阵Identity Matrix交换一行与二行得到,此初等矩阵与右侧矩阵相乘,相当于对右侧矩阵进行同样的行初等变换——交换两行。
11.求初等矩阵的逆
对初等矩阵
E
\boldsymbol E
E来说,其逆同样满足
E
E
−
1
=
I
\boldsymbol E\boldsymbol E^{-1}=\boldsymbol I
EE−1=I,初等矩阵可以理解为对单位矩阵进行一次初等变换,而求逆的过程可以理解为将变换后的内容再 恢复 回去,比如:
初等矩阵
E
1
\boldsymbol E1
E1经过单位矩阵交换
2
3
2\ 3
2 3行得到,那么其逆同样是交换
2
3
2\ 3
2 3行,也就是再换回去。
A
n
×
n
\boldsymbol A_{n\times n}
An×n可逆是
A
\boldsymbol A
A可以表示为有限个初等矩阵乘积 的充要条件。也就是说,
A
−
1
\boldsymbol A^{-1}
A−1一定可以拆解成
k
k
k个初等矩阵相乘的形式。
求
A
−
1
\boldsymbol A^{-1}
A−1的另一种方法(假设
A
\boldsymbol A
A可逆),将
[
A
I
n
]
[\boldsymbol A\ \boldsymbol I_n]
[A In]经过有限次初等变换变为
[
I
n
A
−
1
]
[\boldsymbol I_n\ \boldsymbol A^{-1}]
[In A−1]。
其原理可以解释为:假设
A
\boldsymbol A
A经过有限次初等变换变成了
I
n
\boldsymbol I_n
In,那么这有限次初等变换的操作就可以用
k
k
k个初等矩阵相乘来表示,而这
k
k
k个初等矩阵相乘恰好为
A
−
1
\boldsymbol A^{-1}
A−1,
A
−
1
\boldsymbol A^{-1}
A−1乘以矩阵右侧的
I
n
\boldsymbol I_n
In,自然就是
A
−
1
\boldsymbol A^{-1}
A−1.
另外一个例子,求
A
−
1
C
\boldsymbol A^{-1}\boldsymbol C
A−1C,只需将将
[
A
C
]
[\boldsymbol A\ \boldsymbol C]
[A C]经过有限次初等变换变为
[
I
n
A
−
1
C
]
[\boldsymbol I_n\ \boldsymbol A^{-1}\boldsymbol C]
[In A−1C]即可,道理同上。
12.子空间、零空间、列(行)空间
subspace(子空间)
满足以下三个条件的vector set称为subspace,条件1表示:
- vector set 非空
- 0 倍的 u u u 也在subspace中
而条件2+条件3恰好是线性组合的两种方式。
一个例子,判断一个vector set是否为子空间,只需依次判断上面三个条件。
零空间
齐次线性方程组
A
x
=
0
Ax=0
Ax=0的所有解构成的subspace称为Null Space.
列空间和行空间:
列空间就是一个矩阵所有列的span 的集合,因此,列空间也就是矩阵(函数)的值域的集合。
R
o
w
A
=
C
o
l
A
T
Row\ A=Col\ A^T
Row A=Col AT:可以把行空间翻转变成列空间,横着求竖着求都一样。
对于
A
x
=
b
Ax=b
Ax=b有解,以下四种说法是等价的。
- A x = b Ax=b Ax=b有解
- b b b 是 A A A 的列向量的线性组合
- b b b 是 A A A 的列向量span成的
- b b b 在 A A A 的列空间中
13.子空间的基(basis)
基的定义:对非零的子空间满足
- 存在一组线性无关的向量
- 此向量组可以组合成subspace中的任意向量
则此向量组称为子空间的基(Basis)。
Basis在百度翻译中的意思为:原因; 缘由; 基准; 准则; 方式; 基础; 要素; 基点;
个人觉得如果书中把“基”叫做“基准”会更方便后续的理解,在后面也会学到,把满足上面两条的概念叫做基准是不无道理的!因为basis确实可以作为一个基准。
一个矩阵的pivot columns(即每个阶梯的首元素所在的列的集合),一定是矩阵列空间的基,因为这些列一定线性无关,而矩阵中其他非pivot columns又可以由矩阵的pivot columns线性表示。
基的定理、维数dimension
14.列空间、零空间、行空间的关系(Column Space、Null Space、Row Space)
(1)列空间
前面提到过,列空间的pivot columns就是列空间的基,而pivot columns的个数恰好等于矩阵的秩,因此列空间的基的维数就等于矩阵的秩。所以有
D
i
m
(
C
o
l
A
)
=
R
a
n
k
(
A
)
Dim(Col\ A)=Rank(A)
Dim(Col A)=Rank(A).
(2)零空间
零空间的free variable,也就是可变的(自由)变量。
零空间的基也就是其解的张成(Span)。因为零空间的解可以用free variable表示,所以基的维数应该等于变量的总个数减去free variable的个数,也就是
D
i
m
(
N
u
l
l
A
)
=
N
u
l
l
i
t
y
(
A
)
=
n
−
R
a
n
k
(
A
)
Dim(Null\ A)=Nullity(A)=n-Rank(A)
Dim(Null A)=Nullity(A)=n−Rank(A).
(3)行空间
行空间基的维数
D
i
m
(
A
)
Dim(A)
Dim(A)等于
R
R
E
F
(
A
)
RREF(A)
RREF(A)中非零行的个数,也就是
D
i
m
(
R
o
w
A
)
=
R
a
n
k
(
A
)
Dim(Row\ A)=Rank(A)
Dim(Row A)=Rank(A).
(4)总结
- D i m ( C o l A ) + D i m ( N u l l A ) = R a n k ( A ) + N u l l i t y ( A ) = n Dim(Col\ A)+Dim(Null\ A)=Rank(A)+Nullity(A)=n Dim(Col A)+Dim(Null A)=Rank(A)+Nullity(A)=n
- D i m ( C o l A ) = D i m ( R o w A ) = R a n k ( A ) Dim(Col\ A)=Dim(Row\ A)=Rank(A) Dim(Col A)=Dim(Row A)=Rank(A)
(5)推理 R a n k ( A ) = R a n k ( A T ) Rank(A)=Rank(A^T) Rank(A)=Rank(AT)
D i m ( C o l A ) = D i m ( R o w A T ) = R a n k ( A T ) = D i m ( R o w A ) = R a n k ( A ) Dim(Col\ A)=Dim(Row\ A^T)=Rank(A^T)=Dim(Row\ A)=Rank(A) Dim(Col A)=Dim(Row AT)=Rank(AT)=Dim(Row A)=Rank(A)
15.Coordinate System(坐标系)
坐标系就相当于基准,便于将一个向量变得有意义,同一个向量在不同的基准下表示的内容自然不同。
拿下图举例,在左图中表示为
[
8
4
]
[8\ \ 4]
[8 4]的向量,在右图的坐标系中却被表示为
[
6
−
2
]
[6\ \ -2]
[6 −2].
满足下面两条的向量才可以被作为一个坐标系的基准
- 此向量组 B \mathcal{B} B 张成 R n R^n Rn
- 此向量组线性无关
将这两个条件结合在一起,不难发现这其实就是子空间的基的定义。因此,子空间的基就是子空间的坐标系的基准。
之所以使用子空间的基作为坐标系的基准,是因为这样才能保证每个向量都有唯一的表示方法。
证明:
假设对每个向量都有两个不同的表示方法,那么将这两种不同的表示方法代入得出的结果应该是相等的,又因为基
B
\mathcal B
B是线性无关的,当且仅当
a
n
=
b
n
a_n=b_n
an=bn时成立,因此不存在两种不同的表示。也就是以basis作为基准的坐标系中,每个向量只存在唯一的表示方法。
设
B
B
B为子空间的基,
[
v
]
B
[v]_{\mathcal{B}}
[v]B为笛卡尔坐标系下的
v
v
v 向量在其他坐标系
B
\mathcal{B}
B 下的表示。
笛卡尔坐标系与其他坐标系间的转换
(1)其他坐标系 → 直角坐标系: v = B [ v ] B v=B[v]_{\mathcal{B}} v=B[v]B
(2)直角坐标系 → 其他坐标系: [ v ] B = B − 1 v [v]_{\mathcal{B}}=B^{-1}v [v]B=B−1v
可以这样类比理解:
k
k
k位的
N
N
N进制转化为十进制需要从低位开始依次用系数乘以
N
k
N^k
Nk。
又因为基
B
\mathcal B
B 一定线性无关,所以可以用与矩阵的逆相乘的方式求出反向的解。
16.similar(相似)
这里是以坐标系的变换来引入“相似”这个概念的。
假设在笛卡尔坐标系中的一个点
[
x
1
x
2
]
[x_1\ x_2]
[x1 x2],经过一条已知直线
L
\boldsymbol L
L 的翻转对应的点为
T
(
[
x
1
x
2
]
)
T([x_1\ x_2])
T([x1 x2]),求翻转的线性关系(一个矩阵)。
对于求一个点关于直线
L
\boldsymbol L
L 翻转的线性关系,由于这条直线并非
x
x
x轴或者
y
y
y轴,因此翻转对应的线性关系很难得出。
假设我们以
x
x
x 轴为镜面进行翻转,线性关系是很容易得到的。 因为笛卡尔坐标系可以理解为是二维的单位矩阵:
[
1
0
0
1
]
\begin{bmatrix} 1& 0 \\ 0 & 1 \end{bmatrix}
[1001];翻转后,相当于
x
x
x轴元素不变,
y
y
y轴变为
−
y
-y
−y,因此线性关系可以表示为:
T
=
[
1
0
0
−
1
]
T=\begin{bmatrix}1&0\\0&-1\end{bmatrix}
T=[100−1].
基于这种思想,可以利用上一小节学到的知识,通过变换坐标系的方法来求解关系 T T T:
- 将直线 L \boldsymbol L L 作为新的坐标系的 x x x轴,取与之垂直向上的向量作为 y y y轴,建立新坐标系。
- 新坐标系下,翻转关系 [ T ] B = [ 1 0 0 − 1 ] [T]_{\boldsymbol B}=\begin{bmatrix}1&0\\0&-1\end{bmatrix} [T]B=[100−1]
- 根据新坐标系下的 [ T ] B [T]_{\boldsymbol B} [T]B,求出笛卡尔坐标系的 T T T.
那么,笛卡尔坐标系下的
T
T
T 应该怎么求呢?下面是分析过程:
对照下面的图,位于下方的是笛卡尔坐标系,位于上方的是
B
\boldsymbol B
B坐标系,笛卡尔坐标系中的
v
v
v 通过关系
[
T
]
[T]
[T] 变为输出结果
T
(
v
)
T(v)
T(v).
对于其他坐标系,在上一小节提到过二者的变换关系,即:
[
v
]
B
=
B
−
1
v
[v]_{\boldsymbol B}={\boldsymbol B}^{-1}v
[v]B=B−1v,根据这个变换关系,进而求得笛卡尔坐标系到其他坐标系的函数变换。
事实上,
v
→
T
(
v
)
v→T(v)
v→T(v) 与
v
→
[
v
]
B
→
[
T
(
v
)
]
B
→
T
(
v
)
v→[v]_{\boldsymbol B}→[T(v)]_{\boldsymbol B}→T(v)
v→[v]B→[T(v)]B→T(v) 是殊途同归的,因此,
[
T
]
[T]
[T]可以表示为:
[
T
]
=
B
−
1
[
T
]
B
B
[T]={\boldsymbol B}^{-1}[T]_{\boldsymbol B}{\boldsymbol B}
[T]=B−1[T]BB写成一般情况也就是:
[
T
]
B
=
B
−
1
A
B
[T]_{\boldsymbol B}={\boldsymbol B}^{-1}{\boldsymbol A}{\boldsymbol B}
[T]B=B−1AB不难发现,
[
T
]
B
[T]_{\boldsymbol B}
[T]B与
[
T
]
[T]
[T] 虽然所处的坐标系不同,但是它们想要实现的作用是相同的——参考上面的例子,二者均实现翻转的功能。对于这样的变换
[
T
]
[T]
[T]与
[
T
]
B
[T]_{\boldsymbol B}
[T]B(实现功能不变,只不过为了方便操作,改变了坐标系),就将它们叫做相似(similar)。
17.特征值与特征向量(Eigenvalues and Eigenvectors)
定义的理解:
对一个向量
v
v
v 进行线性操作
A
A
A,操作后使
v
v
v 放 / 缩到原本的
λ
\lambda
λ 倍,则称
λ
\lambda
λ 为特征值,
v
v
v 为特征向量。
需要注意的是,向量
v
v
v 是非零的。
(1)一个特征向量一定对应单一的特征值
(2)一个特征值可以对应多个特征向量
下面的举的例子,二者特征向量不同,单特征值相同。
判断一个标量是否为特征值,需要先判断
A
v
=
0
Av=0
Av=0是否只有零解,若是,证明不存在特征向量,也就不存在特征值。
求一个矩阵的特征向量,实际上就是求满足特征多项式的
λ
\lambda
λ,进而带入求得特征向量。
通常来说,矩阵
A
A
A 和
R
R
E
F
(
A
)
RREF(A)
RREF(A) 具有不同的特征多项式,因此他们的特征向量不同。
而一个矩阵和它的相似矩阵具有相同的特征多项式,这也就意味着相似的矩阵具有相同的特征向量。