1.Introduction
在上一节,已经引入了矩阵A和我们要面临的第一个问题Ax=b。
2.高斯消元法
2.1计算方法
假设Ax=b是下面的形式
[
1
2
1
3
8
1
0
4
1
]
[
x
y
z
]
=
[
2
12
22
]
(2.1)
\begin{bmatrix} 1 & 2 & 1 \\ 3 & 8 & 1 \\ 0 &4 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \\ z \end{bmatrix} = \begin{bmatrix} 2 \\ 12 \\ 22 \end{bmatrix} \tag{2.1}
⎣⎡130284111⎦⎤⎣⎡xyz⎦⎤=⎣⎡21222⎦⎤(2.1)
通过行之间的相减,或者互换,化成阶梯形式(echelon form),这里引入了
增
广
矩
阵
\color{red}{增广矩阵}
增广矩阵
[
1
2
1
∣
2
3
8
1
∣
12
0
4
1
∣
22
]
→
[
1
2
1
∣
2
0
2
−
2
∣
6
0
0
5
∣
10
]
(2.2)
\begin{bmatrix} 1 & 2 & 1 & | & 2 \\ 3 & 8 & 1 & | & 12 \\ 0 &4 & 1 & | & 22 \end{bmatrix} \rightarrow \begin{bmatrix} 1 & 2 & 1 & | & 2 \\ 0 & 2 & -2 & | & 6 \\ 0 &0 & 5 & | & 10 \end{bmatrix} \tag{2.2}
⎣⎡130284111∣∣∣21222⎦⎤→⎣⎡1002201−25∣∣∣2610⎦⎤(2.2)
将化简后的增广矩阵
回
代
\color{red}{回代}
回代。
2.2思考
高斯消元法的思想比较简单,有很多工作还需要做。
1)化简的步骤能否用矩阵形式表示,这些矩阵有什么特点?
2)
3.高斯消元法中的变换矩阵
3.1row 互换
因为是行操作,采用左乘,用基向量的角度理解,(i, j)基向量发生了互换(j, i),假设i=1,j=2.
这种矩阵有个特殊的名称,
置
换
矩
阵
,
是
对
称
矩
阵
,
A
T
A
=
I
,
A
T
=
A
−
1
\color{red}{置换矩阵,是对称矩阵,A^{T}A=I}, A^T=A^{-1}
置换矩阵,是对称矩阵,ATA=I,AT=A−1
[
0
1
0
1
0
0
0
0
1
]
\begin{bmatrix} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{bmatrix}
⎣⎡010100001⎦⎤
形象的理解,新的row1,只要之前的第二行了;新的row2只要之前的第一行了,新的row是置换矩阵中的系数乘以A矩阵中对应的行。
3.2row消去
同样采用上面的理解方式,新的一行需要减掉那一行就减掉。例如:第二行减掉3倍的第一行
[
1
0
0
−
3
1
0
0
0
1
]
(3.1)
\begin{bmatrix} 1 & 0 & 0 \\ -3 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} \tag{3.1}
⎣⎡1−30010001⎦⎤(3.1)
3.3小节
这两个矩阵很显然都是可以逆操作的,也就是所上面两个转换矩阵 A 都 可 以 逆 转 成 I A都可以逆转成I A都可以逆转成I,两个都是 可 逆 矩 阵 \color{red}可逆矩阵 可逆矩阵。
3.4可逆矩阵
高斯消元法中出现的两种特殊的矩阵都可以逆转成
I
I
I,同时我们知道其他的矩阵和这两种矩阵一样,也是对基向量的线性变换,那么普通的矩阵是否可逆?如何判断可逆?
参
考
3
b
l
u
e
1
b
r
o
w
n
的
视
频
,
如
果
变
换
后
维
度
发
生
了
降
低
,
这
才
是
不
可
逆
的
\color{red}参考3blue1brown的视频,如果变换后维度发生了降低,这才是不可逆的
参考3blue1brown的视频,如果变换后维度发生了降低,这才是不可逆的。
(补充一点:信息压缩一样,如果某些维度丢失了,才是有损压缩,才是不可逆的)
4.解集
4.1解的数量
4.1.1几何上理解
- 以
A
2
x
2
举
例
A_{2x2}举例
A2x2举例,当转换矩阵A不会降低column space的维度,根据线性变换规则,
x
⃗
只
有
一
个
解
\vec{x}只有一个解
x只有一个解
如果转换矩阵A会降低向量空间的维度,则如果output vector v ⃗ \vec{v} v在矩阵的低维度空间中,有无数解,如果不在则没有解。
4.1.2 引入column space 和 null space
- vector space
简单的理解:向量空间是:向量构成的集合,这里的任意一个向量在进行数乘和叠加之后仍在这个空间中。
向量空间必须包括零向量。 - column space
按照矩阵是中线性变换的角度去理解,矩阵改变了原坐标系下的基向量,获得了新的坐标系,span出了新的空间,称为column space,这个space是有维度的,用rank(A)表示。
w = x 1 ∗ a c o l 1 + x 2 ∗ a c o l 2 + . . . + x n ∗ a c o l n w=x_1*a_{col1}+x_2*a_{col2}+...+x_n*a_{coln} w=x1∗acol1+x2∗acol2+...+xn∗acoln - null space
如图,经过变换之后整个整个平面对应的input vector x ⃗ \vec{x} x都会被压缩成零。这些特殊的input vector span出的向量子空间是null space。
数学形式表示: A x = 0 , 也 就 是 说 c o l u m n s p a c e 和 n u l l s p a c e 是 正 交 的 \color{red}Ax=0,也就是说column \, space和null \, space是正交的 Ax=0,也就是说columnspace和nullspace是正交的
null space其中一个作用是,对于求解 A x = b 的 问 题 , 只 要 求 出 一 个 特 殊 解 x , 加 上 n u l l s p a c e 就 是 实 际 结 果 。 Ax=b的问题,只要求出一个特殊解x,加上null space就是实际结果。 Ax=b的问题,只要求出一个特殊解x,加上nullspace就是实际结果。
4.1.3 线性无关
线性无关几何上是,没有一个向量可以由其他向量合成,代数形式为
A
x
=
0
的
解
集
为
零
向
量
Ax=0的解集为零向量
Ax=0的解集为零向量
[
v
1
v
2
.
.
.
v
n
]
[
x
1
x
2
.
.
.
x
n
]
=
x
1
∗
v
1
+
x
2
∗
v
2
+
.
.
.
+
x
n
∗
v
n
=
0
\begin{bmatrix} v_1 & v_2 & ... & v_n \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix} = x_1*v_1 + x_2*v_2 + ... + x_n*v_n =0
[v1v2...vn]⎣⎢⎢⎡x1x2...xn⎦⎥⎥⎤=x1∗v1+x2∗v2+...+xn∗vn=0
从维度(rank)的角度理解是:矩阵不会压缩信息,想要线性变换成0,之前就嘚是0.
4.2求解Ax=b
求解的方法,在前面也说了,主要是通过高斯消去法,然后回代。在我们回代的时候会遇到无穷个解的情况,以
A
x
=
0
这
种
情
况
为
例
Ax=0这种情况为例
Ax=0这种情况为例。
[
1
2
2
2
2
4
6
8
3
6
8
10
]
→
[
1
2
2
2
0
0
2
4
0
0
0
0
]
→
[
1
2
0
−
2
0
0
1
2
0
0
0
0
]
=
R
(4.1)
\begin{bmatrix} 1 & 2 & 2 & 2 \\ 2 & 4 & 6 & 8 \\ 3 &6 & 8 & 10 \end{bmatrix} \rightarrow \begin{bmatrix} 1 & 2 & 2 & 2 \\ 0 & 0 & 2 & 4 \\ 0 &0 & 0 & 0 \end{bmatrix} \rightarrow \begin{bmatrix} 1 & 2 & 0 & -2 \\ 0 & 0 & 1 & 2 \\ 0 &0 & 0 & 0 \end{bmatrix} =R \tag{4.1}
⎣⎡1232462682810⎦⎤→⎣⎡100200220240⎦⎤→⎣⎡100200010−220⎦⎤=R(4.1)
R 是reduced rechelon form, 公式(4.1)中第1,3列是pivot column, 2,4称为free columns.
在回代的过程中,因为有4个未知量,2个方程,一般的解题思想,将free variable x2,x4当成已知量。
方程的解为
x
⃗
=
[
−
2
x
2
+
2
x
4
x
2
−
2
x
4
x
4
]
\vec{x}= \begin{bmatrix} -2x_2+2x_4 \\ x_2 \\ -2x_4 \\ x_4 \end{bmatrix}
x=⎣⎢⎢⎡−2x2+2x4x2−2x4x4⎦⎥⎥⎤
这里有两个free variable,我们知道他们组成了null space,为了更简便的表示这个null space,选择基向量
x
1
⃗
=
[
−
2
1
0
0
]
x
2
⃗
=
[
2
0
−
2
1
]
(4.2)
\vec{x_1}= \begin{bmatrix}-2 \\ 1 \\ 0 \\ 0 \end{bmatrix} \vec{x_2}= \begin{bmatrix}2 \\ 0 \\ -2 \\ 1 \end{bmatrix} \tag{4.2}
x1=⎣⎢⎢⎡−2100⎦⎥⎥⎤x2=⎣⎢⎢⎡20−21⎦⎥⎥⎤(4.2)
注意观察一下方程(4.1)和方程(4.2),结果有很大的相似性,原因是:
在进行操作之前先将矩阵A,第2列和第3列进行互换(右乘操作),经过高斯消去法,得到
R
=
[
I
F
0
0
]
R= \begin{bmatrix} I & F \\ 0 & 0 \end{bmatrix}
R=[I0F0]
null space 的结果则为
N
(
A
)
=
[
−
F
I
]
N(A) = \begin{bmatrix} -F \\ I \end{bmatrix}
N(A)=[−FI]
因为
R
∗
N
=
0
⃗
R*N=\vec{0}
R∗N=0
4.3 求解 A − 1 A^{-1} A−1
4.3.1高斯若尔当方法
在求解之前搞清楚是否可逆,本质上就是搞清楚,转换矩阵column space的维度,也就是rank(A),
可以采用行列式(determination,只知道有没有发生降维,并不知道降成了几维)去做,或者还是用高斯消去法。
注
意
:
求
逆
解
只
在
方
阵
中
\color{red}注意:求逆解只在方阵中
注意:求逆解只在方阵中
采用的高斯若尔当方法:
思路:
A
−
1
A
→
A
−
1
I
A^{-1}A \rightarrow A^{-1}I
A−1A→A−1I
如果能将左边转换成单位阵,那么右边就是逆解。
5.高斯消去法和LU分解
5.1消去操作对应矩阵的逆
以方程(3.1)为例,该矩阵的逆为:
[
1
0
0
3
1
0
0
0
1
]
(3.1)
\begin{bmatrix} 1 & 0 & 0 \\ 3 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} \tag{3.1}
⎣⎡130010001⎦⎤(3.1)
特
点
是
消
去
矩
阵
和
它
的
逆
矩
阵
都
是
下三角矩阵
:
即
为
L
形
矩
阵
\color{red}特点是消去矩阵和它的逆矩阵都是\textbf{下三角矩阵}:即为L形矩阵
特点是消去矩阵和它的逆矩阵都是下三角矩阵:即为L形矩阵
有
E
A
=
U
EA=U
EA=U,
A
=
E
−
1
U
A=E^{-1}U
A=E−1U,即
A
=
L
U
A=LU
A=LU
Reference
[1] https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw
[2] https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/index.htm