文章目录
本文在学习《麻省理工公开课 线性代数 MIT 18.06 Linear Algebra》总结反思形成
视频链接:MIT-B站视频
笔记部分:总结参考子实
11.矩阵空间、秩1矩阵和小世界图
矩阵空间
记 3 × 3 3 \times 3 3×3矩阵空间记为 M M M。
则
M
M
M的一组基为:
[
1
0
0
0
0
0
0
0
0
]
[
0
1
0
0
0
0
0
0
0
]
[
0
0
1
0
0
0
0
0
0
]
[
0
0
0
1
0
0
0
0
0
]
[
0
0
0
0
1
0
0
0
0
]
[
0
0
0
0
0
1
0
0
0
]
[
0
0
0
0
0
0
1
0
0
]
[
0
0
0
0
0
0
0
1
0
]
[
0
0
0
0
0
0
0
0
1
]
\begin{bmatrix} 1 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \\ \begin{bmatrix} 0 & 0 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \\ \end{bmatrix} \\ \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 1 & 0 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 1 & 0 \\ \end{bmatrix} \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 1 \\ \end{bmatrix} \\
⎣⎡100000000⎦⎤⎣⎡000100000⎦⎤⎣⎡000000100⎦⎤⎣⎡010000000⎦⎤⎣⎡000010000⎦⎤⎣⎡000000010⎦⎤⎣⎡001000000⎦⎤⎣⎡000001000⎦⎤⎣⎡000000001⎦⎤
易得, d i m M = 9 dim M=9 dimM=9。
- 三阶对称矩阵空间有 d i m S = 6 dim S=6 dimS=6
- 上三角矩阵空间有 d i m U = 6 dim U=6 dimU=6
- 对角矩阵空间有 d i m D = 3 dim D=3 dimD=3
重要结论
-
求并(intersect): S ∪ U = D , d i m ( S ∪ U ) = 9 S \cup U=D, dim(S \cup U)=9 S∪U=D,dim(S∪U)=9;
-
求交(sum): S ∩ U = M , d i m ( S ∩ U ) = 3 S \cap U=M, dim(S \cap U)=3 S∩U=M,dim(S∩U)=3;
可以看出: d i m S + d i m U = d i m ( S ∪ U ) + d i m ( S ∩ U ) dim S + dim U=dim(S \cup U) + dim(S \cap U) dimS+dimU=dim(S∪U)+dim(S∩U)。
微分方程
d 2 y d x 2 + y = 0 \frac{d^2y}{dx^2}+y=0 dx2d2y+y=0,即 y ′ ′ + y = 0 y''+y=0 y′′+y=0
方程的解有: y = cos x , y = sin x , y = e i x , y = e − i x y=\cos{x}, \quad y=\sin{x}, \quad y=e^{ix}, \quad y=e^{-ix} y=cosx,y=sinx,y=eix,y=e−ix等等( e i x = cos x + i sin x , e − i x = cos x − i sin x e^{ix}=\cos{x}+i\sin{x}, \quad e^{-ix}=\cos{x}-i\sin{x} eix=cosx+isinx,e−ix=cosx−isinx)
而该方程的所有解: y = c 1 cos x + c 2 sin x y=c_1 \cos{x} + c_2 \sin{x} y=c1cosx+c2sinx。
所以,该方程的零空间的一组基为 cos x , sin x \cos{x}, \sin{x} cosx,sinx,零空间的维数为 2 2 2。同理 e i x , e − i x e^{ix}, e^{-ix} eix,e−ix可以作为另一组基。
秩1矩阵
定义
2 × 3 2 \times 3 2×3矩阵 A = [ 1 4 5 2 8 10 ] = [ 1 2 ] [ 1 4 5 ] A=\begin{bmatrix}1&4&5\\2&8&10\end{bmatrix}=\begin{bmatrix}1\\2\end{bmatrix}\begin{bmatrix}1&4&5\end{bmatrix} A=[1248510]=[12][145]。
且 d i m C ( A ) = 1 = d i m C ( A T ) dimC(A)=1=dimC(A^T) dimC(A)=1=dimC(AT),所有的秩一矩阵都可以划为 A = U V T A=UV^T A=UVT的形式,这里的 U , V U, V U,V均为列向量。
性质
-
秩一矩阵类似“积木”,可以搭建任何矩阵,如对于一个 5 × 17 5 \times 17 5×17秩为 4 4 4的矩阵,只需要 4 4 4个秩一矩阵就可以组合出来。
-
令 M M M代表所有 5 × 17 5 \times 17 5×17, M M M中所有秩 4 4 4矩阵组成的集合并不是一个子空间
-
通常两个秩四矩阵相加,其结果并不是秩四矩阵。
案例
在 R 4 \mathbb{R}^4 R4空间中有向量 v = [ v 1 v 2 v 3 v 4 ] v=\begin{bmatrix}v_1\\v_2\\v_3\\v_4\end{bmatrix} v=⎣⎢⎢⎡v1v2v3v4⎦⎥⎥⎤,取 R 4 \mathbb{R}^4 R4中满足 v 1 + v 2 + v 3 + v 4 = 0 v_1+v_2+v_3+v_4=0 v1+v2+v3+v4=0的所有向量组成一个向量空间 S S S,则 S S S是一个向量子空间。
易看出,不论是使用系数乘以该向量,或是用两个满足条件的向量相加,其结果仍然落在分量和为零的向量空间中。
求 S S S的维数?
解:从另一个角度看, v 1 + v 2 + v 3 + v 4 = 0 v_1+v_2+v_3+v_4=0 v1+v2+v3+v4=0等价于 [ 1 1 1 1 ] [ v 1 v 2 v 3 v 4 ] = 0 \begin{bmatrix}1&1&1&1\end{bmatrix}\begin{bmatrix}v_1\\v_2\\v_3\\v_4\end{bmatrix}=0 [1111]⎣⎢⎢⎡v1v2v3v4⎦⎥⎥⎤=0,则 S S S就是 A = [ 1 1 1 1 ] A=\begin{bmatrix}1&1&1&1\end{bmatrix} A=[1111]的零空间。
r a n k ( A ) = 1 rank(A)=1 rank(A)=1,则对其零空间有 r a n k ( N ( A ) ) = n − r = 3 = d i m N ( A ) rank(N(A))=n-r=3=dim N(A) rank(N(A))=n−r=3=dimN(A),则 S S S的维数是 3 3 3。
四个子空间(复习)
顺便复习 1 × 4 1 \times 4 1×4矩阵 A A A的四个基本子空间:
行空间: d i m C ( A T ) = 1 dim C(A^T)=1 dimC(AT)=1,其中的一组基是 [ 1 1 1 1 ] \begin{bmatrix}1\\1\\1\\1\end{bmatrix} ⎣⎢⎢⎡1111⎦⎥⎥⎤;
零空间: d i m N ( A ) = 3 dim N(A)=3 dimN(A)=3,其中的一组基是 [ − 1 1 0 0 ] [ − 1 0 1 0 ] [ − 1 0 0 1 ] \begin{bmatrix}-1\\1\\0\\0\end{bmatrix}\begin{bmatrix}-1\\0\\1\\0\end{bmatrix}\begin{bmatrix}-1\\0\\0\\1\end{bmatrix} ⎣⎢⎢⎡−1100⎦⎥⎥⎤⎣⎢⎢⎡−1010⎦⎥⎥⎤⎣⎢⎢⎡−1001⎦⎥⎥⎤
列空间: d i m C ( A ) = 1 dim C(A)=1 dimC(A)=1,其中一组基是 [ 1 ] \begin{bmatrix}1\end{bmatrix} [1],可以看出列空间就是整个 R 1 \mathbb{R}^1 R1空间。
左零空间: d i m N ( A T ) = 0 dim N(A^T)=0 dimN(AT)=0,因为 A A A转置后没有非零的 v v v可以使 A v = 0 Av=0 Av=0成立,就是 [ 0 ] \begin{bmatrix}0\end{bmatrix} [0]。
综上, d i m C ( A T ) + d i m N ( A ) = 4 = n , d i m C ( A ) + d i m N ( A T ) = 1 = m dim C(A^T)+dim N(A)=4=n, dim C(A)+dim N(A^T)=1=m dimC(AT)+dimN(A)=4=n,dimC(A)+dimN(AT)=1=m
图
-
图(graph)由节点(node)与边(edge)组成。
-
六度分隔理论(略)——所以世界很小(小世界图的名字来源)
12.图和网络
知识小结
- 无电源情况下:
- 将电势记为 e e e,则在引入电势的第一步中,有 e = A x e=Ax e=Ax;
- 电势差导致电流产生, y = C e y=Ce y=Ce;
- 电流满足基尔霍夫定律方程, A T y = 0 A^Ty=0 ATy=0;
- 有电源情况下:
电源可以通过:在边上加电池(电压源),或在节点上加外部电流 两种方式接入。
- 如果在边上加电池,会体现在 e = A x e=Ax e=Ax中;
- 如果在节点上加电流,会体现在 A T y = f A^Ty=f ATy=f中, f f f向量就是外部电流。
- 平衡方程(统一考虑):
- 将以上三个等式连起来得到 A T C A x = f A^TCAx=f ATCAx=f。
- 方程仅描述平衡状态,方程并不考虑时间。
- 没有回路的图也叫作树(Tree)
图和网络(电势阐述)
- 建立
5
×
4
5 \times 4
5×4矩阵描述该图(就是引入电势)
A = [ − 1 1 0 0 0 − 1 1 0 − 1 0 1 0 − 1 0 0 1 0 0 − 1 1 ] A=\begin{bmatrix} -1 & 1 & 0 & 0 \\ 0 & -1 & 1 & 0 \\ -1 & 0 & 1 & 0 \\ -1 & 0 & 0 & 1 \\ 0 & 0 & -1 & 1 \\ \end{bmatrix} A=⎣⎢⎢⎢⎢⎡−10−1−101−10000110−100011⎦⎥⎥⎥⎥⎤
观察前三行,易看出这三个行向量线性相关,也就是这三个向量可以形成回路(loop)。 线 性 相 关 < = > 回 路 线性相关<=>回路 线性相关<=>回路;
-
现在研究 A x = 0 Ax=0 Ax=0(就是研究等电势):
A x = [ − 1 1 0 0 0 − 1 1 0 − 1 0 1 0 − 1 0 0 1 0 0 − 1 1 ] [ x 1 x 2 x 3 x 4 ] Ax=\begin{bmatrix} -1 & 1 & 0 & 0 \\ 0 & -1 & 1 & 0 \\ -1 & 0 & 1 & 0 \\ -1 & 0 & 0 & 1 \\ 0 & 0 & -1 & 1 \\ \end{bmatrix} \begin{bmatrix} x_1\\x_2\\x_3\\x_4\\ \end{bmatrix} Ax=⎣⎢⎢⎢⎢⎡−10−1−101−10000110−100011⎦⎥⎥⎥⎥⎤⎣⎢⎢⎡x1x2x3x4⎦⎥⎥⎤展开得到:
[ x 2 − x 1 x 3 − x 2 x 3 − x 1 x 4 − x 1 x 4 − x 3 ] = [ 0 0 0 0 0 ] \begin{bmatrix}x_2-x_1 \\x_3-x_2 \\x_3-x_1 \\x_4-x_1 \\x_4-x_3 \\ \end{bmatrix}=\begin{bmatrix}0\\0\\0\\0\\0\\ \end{bmatrix} ⎣⎢⎢⎢⎢⎡x2−x1x3−x2x3−x1x4−x1x4−x3⎦⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎡00000⎦⎥⎥⎥⎥⎤
- 引入矩阵的实际意义:将 x = [ x 1 x 2 x 3 x 4 ] x=\begin{bmatrix}x_1 & x_2 & x_3 & x_4\end{bmatrix} x=[x1x2x3x4]设为各节点电势(Potential at the Nodes)。
- 则式子中的诸如 x 2 − x 1 x_2-x_1 x2−x1的元素,可以看做该边上的电势差(Potential Differences)。
- 其零空间的物理意义为,当电位相等时,不存在电势差,图中无电流。
应用数学
现在研究 A T y = 0 A^Ty=0 ATy=0(应用数学里常用公式):
A T y = 0 = [ − 1 0 − 1 − 1 0 1 − 1 0 0 0 0 1 1 0 − 1 0 0 0 1 1 ] [ y 1 y 2 y 3 y 4 y 5 ] = [ 0 0 0 0 ] A^Ty=0=\begin{bmatrix}-1 & 0 & -1 & -1 & 0 \\1 & -1 & 0 & 0 & 0 \\0 & 1 & 1 & 0 & -1 \\0 & 0 & 0 & 1 & 1 \\ \end{bmatrix}\begin{bmatrix}y_1\\y_2\\y_3\\y_4\\y_5\end{bmatrix}=\begin{bmatrix}0\\0\\0\\0\end{bmatrix} ATy=0=⎣⎢⎢⎡−11000−110−1010−100100−11⎦⎥⎥⎤⎣⎢⎢⎢⎢⎡y1y2y3y4y5⎦⎥⎥⎥⎥⎤=⎣⎢⎢⎡0000⎦⎥⎥⎤
对于转置矩阵有 d i m N ( A T ) = m − r = 5 − 3 = 2 dim N(A^T)=m-r=5-3=2 dimN(AT)=m−r=5−3=2。
A T y = 0 A^Ty=0 ATy=0的一种应用含义叫做“基尔霍夫电流定律”(Kirchoff’s Law, 简称KCL)。
矩阵
C
C
C将电势差与电流联系起来,电流与电势差的关系服从欧姆定律:边上的电流值是电势差的倍数,这个倍数就是边的电导(conductance)即电阻(resistance)的倒数。
电
势
差
→
欧
姆
定
律
矩
阵
C
各
边
上
的
电
流
y
1
,
y
2
,
y
3
,
y
4
,
y
5
电势差 \xrightarrow[欧姆定律]{矩阵C} 各边上的电流y_1, y_2, y_3, y_4, y_5
电势差矩阵C欧姆定律各边上的电流y1,y2,y3,y4,y5
将
A
T
y
=
0
A^Ty=0
ATy=0中的方程列出来:
{
y
1
+
y
3
+
y
4
=
0
y
1
−
y
2
=
0
y
2
+
y
3
−
y
5
=
0
y
4
−
y
5
=
0
\left\{ \begin{aligned} y_1 + y_3 + y_4 &= 0 \\ y_1 - y_2 &= 0 \\ y_2 + y_3 - y_5 &= 0 \\ y_4 - y_5 &= 0 \\ \end{aligned} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y1+y3+y4y1−y2y2+y3−y5y4−y5=0=0=0=0
看 A T y = 0 A^Ty=0 ATy=0的第一个方程, − y 1 − y 3 − y 4 = 0 -y_1-y_3-y_4=0 −y1−y3−y4=0,可以看出这个方程是关于节点 1 1 1上的电流的,方程指出节点 1 1 1上的电流和为零
基尔霍夫定律是一个平衡方程、守恒定律,它说明了流入等于流出,电荷不会在节点上累积。
矩阵的线性相关证明图的欧拉公式
-
A T A^T AT的对应列向量线性无关,也就是节点数减1( r a n k = n o d e s − 1 rank=nodes-1 rank=nodes−1)条边线性无关。
-
再看左零空间的维数公式: d i m N ( A T ) = m − r dim N(A^T)=m-r dimN(AT)=m−r,左零空间的维数就是相互无关的回路的数量。
-
所以 l o o p s = e d g e s − ( n o d e s − 1 ) loops=edges-(nodes-1) loops=edges−(nodes−1),
-
整理得著名的欧拉公式(任何图都有此拓扑性质):
n o d e s − e d g e s + l o o p s = 1 nodes-edges+loops=1 nodes−edges+loops=1
零 维 ( 节 点 ) − 一 维 ( 边 ) + 二 维 ( 回 路 ) = 1 零维(节点)-一维(边)+二维(回路)=1 零维(节点)−一维(边)+二维(回路)=1
13.复习
复习为习题课,题目比较简单(略)
-
如果 B 2 = 0 B^2=0 B2=0,并不能得出 B = 0 B=0 B=0,反例: [ 0 1 0 0 ] \begin{bmatrix}0 & 1\\ 0 & 0\\ \end{bmatrix} [0010],这个矩阵经常会被用作反例。
-
问:已知
B = [ 1 1 0 0 1 0 1 0 1 ] [ 1 0 − 1 2 0 1 1 − 1 0 0 0 0 ] B= \begin{bmatrix} 1 & 1 & 0 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \\ \end{bmatrix} \begin{bmatrix} 1 & 0 & -1 & 2 \\ 0 & 1 & 1 & -1 \\ 0 & 0 & 0 & 0 \\ \end{bmatrix} B=⎣⎡101110001⎦⎤⎣⎡100010−1102−10⎦⎤,在不解出 B B B的情况下,求 B B B的零空间。解:可以观察得出前一个矩阵是可逆矩阵,设 B = C D B=CD B=CD,则求零空间 B x = 0 , C D x = 0 Bx=0, CDx=0 Bx=0,CDx=0,而 C C C是可逆矩阵,则等式两侧同时乘以 C − 1 C^{-1} C−1有 C − 1 C D x = D x = 0 C^{-1}CDx=Dx=0 C−1CDx=Dx=0,所以当 C C C为可逆矩阵时,有 N ( C D ) = N ( D ) N(CD)=N(D) N(CD)=N(D),即左乘逆矩阵不会改变零空间。
本题转化为求 D D D的零空间, N ( B ) N(B) N(B)的基为
[ − F I ] \begin{bmatrix}-F\\I\\ \end{bmatrix} [−FI],也就是 [ 1 − 1 1 0 ] [ − 2 1 0 1 ] \begin{bmatrix}1\\-1\\1\\0 \end{bmatrix}\quad\begin{bmatrix}-2\\1\\0\\1\end{bmatrix} ⎣⎢⎢⎡1−110⎦⎥⎥⎤⎣⎢⎢⎡−2101⎦⎥⎥⎤ -
如果 A , B A, B A,B的四个基本子空间相同,则 A , B A, B A,B互为倍数关系。
不成立,**反例:**如任意两个 n n n阶可逆矩阵,他们的列空间、行空间均为 R n \mathbb{R}^n Rn,他们的零空间、左零空间都只有零向量,所以他们的四个基本子空间相同,但是并不一定具有倍数关系。
-
衔接题:
为什么向量 v = [ 1 2 3 ] v=\begin{bmatrix}1\\2\\3 \end{bmatrix} v=⎣⎡123⎦⎤不能同时出现在矩阵的行空间与零空间中?令 A [ 1 2 3 ] = [ 0 0 0 ] A\begin{bmatrix}1\\2\\3 \end{bmatrix}=\begin{bmatrix}0\\0\\0 \end{bmatrix} A⎣⎡123⎦⎤=⎣⎡000⎦⎤,很明显矩阵 A A A中不能出现值为 [ 1 2 3 ] \begin{bmatrix}1 & 2 & 3 \end{bmatrix} [123]的行向量,否则无法形成等式右侧的零向量。这里引入正交(perpendicular)的概念
- 矩阵的行空间与零空间正交,它们仅共享零向量。
14.正交向量与子空间
毕达哥拉斯定理和正交
对于向量 x , y x, y x,y,当 x T ⋅ y = 0 x^T \cdot y=0 xT⋅y=0即 x 1 y 1 + x 2 y x + ⋯ + x n y n = 0 x_1y_1+x_2y_x+\cdots+x_ny_n=0 x1y1+x2yx+⋯+xnyn=0时,有向量 x , y x, y x,y正交(vector orthogonal)。
毕达哥拉斯定理(Pythagorean theorem)中提到,直角三角形的三条边满足:
∥ x → ∥ 2 + ∥ y → ∥ 2 = ∥ x + y → ∥ 2 x T x + y T y = ( x + y ) T ( x + y ) x T x + y T y = x T x + y T y + x T y + y T x 0 = x T y + y T x 对 于 向 量 点 乘 , x T y = y T x 0 = 2 x T y x T y = 0 \begin{aligned} \left\|\overrightarrow{x}\right\|^2+\left\|\overrightarrow{y}\right\|^2 &= \left\|\overrightarrow{x+y}\right\|^2 \\ x^Tx+y^Ty &= (x+y)^T(x+y) \\ x^Tx+y^Ty &= x^Tx+y^Ty+x^Ty+y^Tx \\ 0 &= x^Ty+y^Tx \qquad 对于向量点乘,x^Ty=y^Tx \\ 0 &= 2x^Ty \\ x^Ty &=0 \end{aligned} ∥∥∥x∥∥∥2+∥∥∥y∥∥∥2xTx+yTyxTx+yTy00xTy=∥∥∥x+y∥∥∥2=(x+y)T(x+y)=xTx+yTy+xTy+yTx=xTy+yTx对于向量点乘,xTy=yTx=2xTy=0
由此得出,两正交向量的点积为 0 0 0。另外, x , y x, y x,y可以为 0 0 0向量,由于 0 0 0向量与任意向量的点积均为零,所以 0 0 0向量与任意向量正交。
若两个子空间正交,则它们一定不会相交于某个非零向量。
子空间与正交
其行空间( d i m C ( A T ) = r dim C(A^T)=r dimC(AT)=r)与零空间( d i m N ( A ) = n − r dim N(A)=n-r dimN(A)=n−r)同属于 R n \mathbb{R}^n Rn空间,正交?
其列空间( d i m C ( A ) = r dim C(A)=r dimC(A)=r)与左零空间( d i m N ( A T ) dim N(A^T) dimN(AT)=m-r)同属于 R m \mathbb{R}^m Rm空间,正交?
行空间与零空间将 R n \mathbb{R}^n Rn分割为两个正交的子空间,证明略
同样的,列空间与左零空间将 R m \mathbb{R}^m Rm分割为两个正交的子空间。
补充一点,我们把行空间与零空间称为 n n n维空间里的正交补(orthogonal complement),即零空间包含了所有与行空间正交的向量;
同理列空间与左零空间为 m m m维空间里的正交补,即左零空间包含了所有与零空间正交的向量。
坏方程->好方程
接下来看长方矩阵, m > n m>n m>n。对于这种矩阵, A x = b Ax=b Ax=b中经常混入一些包含“坏数据”的方程
于是,我们引入一个重要的矩阵: A T A A^TA ATA。这是一个 n × m n \times m n×m矩阵点乘 m × n m \times n m×n矩阵,其结果是一个 n × n n \times n n×n矩阵,应该注意的是,这也是一个对称矩阵,证明如下:
( A T A ) T = A T ( A T ) T = A T A (A^TA)^T=A^T(A^T)^T=A^TA (ATA)T=AT(AT)T=ATA
这一章节的核心就是 A T A x = A T b A^TAx=A^Tb ATAx=ATb,这个变换可以将“坏方程组”变为“好方程组”。
举例,有 [ 1 1 1 2 1 5 ] [ x 1 x 2 ] = [ b 1 b 2 b 3 ] \begin{bmatrix}1&1\\1&2\\1&5\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=\begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix} ⎣⎡111125⎦⎤[x1x2]=⎣⎡b1b2b3⎦⎤,只有当 [ b 1 b 2 b 3 ] \begin{bmatrix}b_1\\b_2\\b_3\end{bmatrix} ⎣⎡b1b2b3⎦⎤在矩阵的列空间时,方程才有解。
现在来看 [ 1 1 1 1 2 5 ] [ 1 1 1 2 1 5 ] = [ 3 8 8 30 ] \begin{bmatrix}1&1&1\\1&2&5\end{bmatrix}\begin{bmatrix}1&1\\1&2\\1&5\end{bmatrix}=\begin{bmatrix}3&8\\8&30\end{bmatrix} [111215]⎣⎡111125⎦⎤=[38830],可以看出此例中 A T A A^TA ATA是可逆的。然而并非所有 A T A A^TA ATA都是可逆的,如 [ 1 1 1 3 3 3 ] [ 1 3 1 3 1 3 ] = [ 3 9 9 27 ] \begin{bmatrix}1&1&1\\3&3&3\end{bmatrix}\begin{bmatrix}1&3\\1&3\\1&3\end{bmatrix}=\begin{bmatrix}3&9\\9&27\end{bmatrix} [131313]⎣⎡111333⎦⎤=[39927](注意到这是两个秩一矩阵相乘,其结果秩不会大于一)
给出好方程的结论
N ( A T A ) = N ( A ) r a n k ( A T A ) = r a n k ( A ) A T A 可 逆 当 且 仅 当 N ( A ) 为 零 向 量 , 即 A 的 列 线 性 无 关 N(A^TA)=N(A)\\ rank(A^TA)=rank(A)\\ A^TA可逆当且仅当N(A)为零向量,即A的列线性无关\\ N(ATA)=N(A)rank(ATA)=rank(A)ATA可逆当且仅当N(A)为零向量,即A的列线性无关
15.子空间投影
正交和投影( R 2 \mathbb{R}^2 R2空间引入)
有向量 a , b a, b a,b,做 b b b在 a a a上的投影 p p p,如图, e = b − p , e ⊥ p e=b-p, e \bot p e=b−p,e⊥p。 p p p在 a a a上,有 p = a x ‾ \underline{p=ax} p=ax。
所以有 a T e = a T ( b − p ) = a T ( b − a x ) = 0 a^Te=a^T(b-p)=a^T(b-ax)=0 aTe=aT(b−p)=aT(b−ax)=0。关于正交的最重要的方程:
a T ( b − x a ) = 0 x a T a = a T b ‾ x = a T b a T a ‾ p = a a T b a T a a^T(b-xa)=0 \\ \underline{xa^Ta=a^Tb} \\ \underline{x=\frac{a^Tb}{a^Ta}} \\ p=a\frac{a^Tb}{a^Ta} aT(b−xa)=0xaTa=aTbx=aTaaTbp=aaTaaTb
设投影矩阵为
P
P
P,则可以说投影矩阵作用与某个向量后,得到其投影向量
p
r
o
j
e
c
t
i
o
n
p
=
P
b
P
=
a
a
T
a
T
a
‾
projection_p=Pb\\ \underline{P=\frac{aa^T}{a^Ta}}
projectionp=PbP=aTaaaT
若
a
a
a是
n
n
n维列向量,则
P
P
P是一个
n
×
n
n \times n
n×n矩阵。
观察投影矩阵 P P P的列空间, C ( P ) C(P) C(P)是一条通过 a a a的直线,而 r a n k ( P ) = 1 rank(P)=1 rank(P)=1(一列乘以一行: a a T aa^T aaT,而这一列向量 a a a是该矩阵的基)。
投影矩阵的性质:
-
P = P T ‾ \underline{P=P^T} P=PT,投影矩阵是一个对称矩阵。
-
如果对一个向量做两次投影,即 P P b PPb PPb,则其结果仍然与 P b Pb Pb相同,也就是 P 2 = P ‾ \underline{P^2=P} P2=P。
投影的应用( R 3 \mathbb{R}^3 R3空间推广)
为什么我们需要投影?
因为有些时候 A x = b Ax=b Ax=b无解,我们只能求出最接近的那个解。
A x Ax Ax总是在 A A A的列空间中,而 b b b却不一定,这是问题所在,所以我们可以将 b b b变为 A A A的列空间中最接近的那个向量,
即将无解的 A x = b Ax=b Ax=b变为求有解的 A x ^ = p A\hat{x}=p Ax^=p( p p p是 b b b在 A A A的列空间中的投影, x ^ \hat{x} x^不再是那个不存在的 x x x,而是最接近的解)。
现在来看 R 3 \mathbb{R}^3 R3中的情形
将向量
b
b
b投影在平面
A
A
A上。同样的,
p
p
p是向量
b
b
b在平面
A
A
A上的投影,
e
e
e是垂直于平面
A
A
A的向量,即
b
b
b在平面
A
A
A法方向的分量。
设平面
A
A
A的一组基为
a
1
,
a
2
a_1, a_2
a1,a2,则投影向量
p
=
x
1
^
a
1
+
x
2
^
a
2
p=\hat{x_1}a_1+\hat{x_2}a_2
p=x1^a1+x2^a2,我们更倾向于写作
p
=
A
x
^
p=A\hat{x}
p=Ax^,这里如果我们求出
x
^
\hat{x}
x^,则该解就是无解方程组最近似的解。
现在问题的关键在于找 e = b − A x ^ e=b-A\hat{x} e=b−Ax^,使它垂直于平面,因此我们得到两个方程
{
a
1
T
(
b
−
A
x
^
)
=
0
a
2
T
(
b
−
A
x
^
)
=
0
\begin{cases}a_1^T(b-A\hat{x})=0\\ a_2^T(b-A\hat{x})=0\end{cases}
{a1T(b−Ax^)=0a2T(b−Ax^)=0
将方程组写成矩阵形式
[
a
1
T
a
2
T
]
(
b
−
A
x
^
)
=
[
0
0
]
\begin{bmatrix}a_1^T\\a_2^T\end{bmatrix} (b-A\hat{x})= \begin{bmatrix}0\\0\end{bmatrix}
[a1Ta2T](b−Ax^)=[00]
即
A
T
(
b
−
A
x
^
)
=
0
A^T(b-A\hat{x})=0
AT(b−Ax^)=0。
比较该方程与 R 2 \mathbb{R}^2 R2中的投影方程,发现只是向量 a a a变为矩阵 A A A而已,本质上就是 A T e = 0 A^Te=0 ATe=0。所以, e e e在 A T A^T AT的零空间中( e ∈ N ( A T ) e\in N(A^T) e∈N(AT)),从前面几讲我们知道,左零空间 ⊥ \bot ⊥列空间,则有 e ⊥ C ( A ) e\bot C(A) e⊥C(A),与我们设想的一致。
再化简方程得 A T A x = A T b A^TAx=A^Tb ATAx=ATb,比较在 R 2 \mathbb{R}^2 R2中的情形, a T a a^Ta aTa是一个数字而 A T A A^TA ATA是一个 n n n阶方阵,而解出的 x x x可以看做两个数字的比值。现在在 R 3 \mathbb{R}^3 R3中,我们需要再次考虑:什么是 x ^ \hat{x} x^?投影是什么?投影矩阵又是什么?
-
第一个问题: x ^ = ( A T A ) − 1 A T b \hat x=(A^TA)^{-1}A^Tb x^=(ATA)−1ATb;
-
第二个问题: p = A x ^ = A ( A T A ) − 1 A T ‾ b p=A\hat x=\underline{A(A^TA)^{-1}A^T}b p=Ax^=A(ATA)−1ATb,回忆在 R 2 \mathbb{R}^2 R2中的情形,下划线部分就是原来的 a a T a T a \frac{aa^T}{a^Ta} aTaaaT;
-
第三个问题:易看出投影矩阵就是下划线部分 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT。
注意点:
- P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT是不能继续化简为 P = A A − 1 ( A T ) − 1 A T = I P=AA^{-1}(A^T)^{-1}A^T=I P=AA−1(AT)−1AT=I的,因为这里的 A A A并不是一个可逆方阵。
- 换一种思路说,如果 A A A是一个 n n n阶可逆方阵,则 A A A的列空间是整个 R n \mathbb{R}^n Rn空间,于是 b b b在 R n \mathbb{R}^n Rn上的投影矩阵确实变为了 I I I,因为 b b b已经在空间中了,其投影不再改变。
投影矩阵 P P P的性质:
-
P = P T P=P^T P=PT:有
[ A ( A T A ) − 1 A T ] T = A [ ( A T A ) − 1 ] T A T \left[A(A^TA)^{-1}A^T\right]^T=A\left[(A^TA)^{-1}\right]^TA^T [A(ATA)−1AT]T=A[(ATA)−1]TAT而 ( A T A ) (A^TA) (ATA)是对称的,所以其逆也是对称的,所以有 A ( ( A T A ) − 1 ) T A T = A ( A T A ) − 1 A T A((A^TA)^{-1})^TA^T=A(A^TA)^{-1}A^T A((ATA)−1)TAT=A(ATA)−1AT,得证。 -
P 2 = P P^2=P P2=P:有
[ A ( A T A ) − 1 A T ] [ A ( A T A ) − 1 A T ] = A ( A T A ) − 1 [ ( A T A ) ( A T A ) − 1 ] A T = A ( A T A ) − 1 A T \left[A(A^TA)^{-1}A^T\right]\left[A(A^TA)^{-1}A^T\right]\\=A(A^TA)^{-1}\left[(A^TA)(A^TA)^{-1}\right]A^T\\=A(A^TA)^{-1}A^T [A(ATA)−1AT][A(ATA)−1AT]=A(ATA)−1[(ATA)(ATA)−1]AT=A(ATA)−1AT,得证。
最小二乘法(拟合直线举例)
投影的经典应用案例:最小二乘法拟合直线(least squares fitting by a line)。
比如:需要找到距离图中三个点 ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 2 ) (1, 1), (2, 2), (3, 2) (1,1),(2,2),(3,2) 偏差最小的直线: b = C + D t b=C+Dt b=C+Dt。
根据条件可以得到方程组
{
C
+
D
=
1
C
+
2
D
=
2
C
+
3
D
=
2
\begin{cases} C+D&=1 \\ C+2D&=2 \\ C+3D&=2 \\ \end{cases}
⎩⎪⎨⎪⎧C+DC+2DC+3D=1=2=2
写作矩阵形式
[
1
1
1
2
1
3
]
[
C
D
]
=
[
1
2
2
]
\begin{bmatrix}1&1 \\1&2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix}
⎣⎡111123⎦⎤[CD]=⎣⎡122⎦⎤
也就是我们的
A
x
=
b
Ax=b
Ax=b,很明显方程组无解。但是
A
T
A
x
^
=
A
T
b
A^TA\hat x=A^Tb
ATAx^=ATb有解。
于是我们将原式两边同时乘以 A T A^T AT后得到的新方程组是有解的, A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb也是最小二乘法的核心方程。