前面几节讲了几个内容:
- 正交及投影
- 行列式
- 特征值和特征向量
- 应用:特征值和特征向量
概念
一、正交及投影
首先定义了两个向量正交的概念,然后将这个概念扩展到子空间,最后在四个基本子空间中讨论相互之间的正交性。有了向量、矩阵正交的概念后,接着讨论了向量在直线和平面上投影的表示方法,最后讲了如何利用投影的几何意义来求解一些最优化的问题。核心就是投影矩阵
P
P
P:
P
=
A
(
A
T
A
)
−
1
A
P=A(A^TA)^{-1}A
P=A(ATA)−1A
二、行列式
行列式主要就是在谈论方阵的一个属性,这个属性可以由一个数来表示。前三个性质能够推导出剩下的所有性质,如果可能请记住这些性质:
- 单位矩阵的行列式为1(性质1)
- 一次行交换行列式值相反(性质2)
- 线性提取或者线性展开(性质3)
- 相同行行列式为0
- 加减其它行倍数值不变
- 有零行行列式为零
- 上三角行列式对角线之积为行列式
- 奇异矩阵值为零,非奇异不为零
- 矩阵乘积行列式等于两个矩阵分别行列式后乘积
- 转置前后行列式不变
接着引出了余子式和代数余子式的概念,结合伴随矩阵给出了求解逆矩阵的一个重要公式:
A
−
1
=
C
T
∣
A
∣
A^{-1}=\frac{C^T}{\vert A \vert}
A−1=∣A∣CT
三、特征值和特征向量
一个方阵一定有特征值和特征向量,满足以下关系:
A
x
=
λ
x
Ax=\lambda x
Ax=λx
将上面的式子转换到我们的方程
A
x
=
0
Ax=0
Ax=0 上,求解特征值和特征向量就变成了求解方程组的零空间的过程。有了特征向量的概念,就有了特征向量(列)构成的特征向量矩阵
S
S
S,于是我们多了一种矩阵分解的方法:
A
=
S
Λ
S
−
1
A=S\Lambda S^{-1}
A=SΛS−1
四、特征向量和特征值的应用
- 微分方程
- 递推公式求解
这一部分和工科联系很紧密,比如说稳定性判断、终值等。
习题
Q1 关于投影
- 给定向量 a = [ 2 1 2 ] a=\begin{bmatrix}2\\1\\2\end{bmatrix} a=⎣ ⎡212⎦ ⎤,求这个向量的投影矩阵 P P P。
直接套用公式即可:
P
=
a
a
T
a
T
a
=
1
9
[
4
2
4
2
1
2
4
2
4
]
P=\frac{aa^T}{a^Ta}=\frac{1}{9}\begin{bmatrix}4&2&4\\2&1&2\\4&2&4\end{bmatrix}
P=aTaaaT=91⎣
⎡424212424⎦
⎤
其实,它是一个秩为1的矩阵,矩阵
P
P
P的列空间向量只有一个,所以其维数为
1
1
1,对应的零空间为
3
−
1
=
2
3-1=2
3−1=2维。所有其他矩阵都可以通过投影矩阵投影到向量
a
a
a上,也就是:
P
x
=
λ
a
Px=\lambda a
Px=λa
现在来考察一下特征值的情况,因为特征值是对应零空间的每一个分量,而零空间只有1个分量,所以特征值必有两个0,那么最后一个特征值应该是1,这是因为:
P
a
=
1
a
Pa=1 a
Pa=1a
将向量
a
a
a投影到自身。
还是这个投影矩阵,如果状态向量
u
u
u满足:
u
k
+
1
=
P
u
k
u
0
=
[
9
9
0
]
u_{k+1}=Pu_k\quad u_0=\begin{bmatrix}9\\9\\0\end{bmatrix}
uk+1=Puku0=⎣
⎡990⎦
⎤
那么如何求解其通项?
不妨计算一下
u
1
u_1
u1:
u
1
=
P
u
0
=
a
a
T
u
0
a
T
a
=
a
27
9
=
3
a
=
[
6
3
6
]
u_1=Pu_0=a\frac{a^Tu_0}{a^Ta}=a\frac{27}{9}=3a=\begin{bmatrix}6\\3\\6\end{bmatrix}
u1=Pu0=aaTaaTu0=a927=3a=⎣
⎡636⎦
⎤
因为
P
P
P是一个投影矩阵,所以有
P
k
=
P
P^k=P
Pk=P,故通项公式为:
u
k
=
P
u
0
u_k=Pu_0
uk=Pu0
假如
P
P
P是一个普通矩阵,那么就需要利用到特征值和特征向量了:
u
0
=
c
1
x
1
+
c
2
x
2
+
c
3
x
3
u_0=c_1x_1+c_2x_2+c_3x_3
u0=c1x1+c2x2+c3x3
u k = c 1 λ 1 x 1 + c 2 λ 2 x 2 + c 3 λ 3 x 3 u_k=c_1\lambda_1x_1+c_2\lambda_2x_2+c_3\lambda_3x_3 uk=c1λ1x1+c2λ2x2+c3λ3x3
Q2 最小二乘拟合
点坐标如下:
t | y |
---|---|
1 | 4 |
2 | 5 |
3 | 8 |
求一条最佳的经过原点的拟合直线方程。设直线方程为:
y
=
D
t
y=Dt
y=Dt
带入点坐标后:
1
D
=
4
2
D
=
5
3
D
=
8
1D=4\\2D=5\\3D=8
1D=42D=53D=8
写成矩阵形式:
[
1
2
3
]
D
=
[
4
5
8
]
\begin{bmatrix}1\\2\\3\end{bmatrix}D=\begin{bmatrix}4\\5\\8\end{bmatrix}
⎣
⎡123⎦
⎤D=⎣
⎡458⎦
⎤
显然这个方程是没有解的,转而求其最优解:
A
T
A
D
^
=
A
T
b
A^TA\hat{D}=A^Tb
ATAD^=ATb
也就是:
D
^
=
(
A
T
A
)
−
1
A
T
b
=
38
14
\hat{D}=(A^TA)^{-1}A^Tb=\frac{38}{14}
D^=(ATA)−1ATb=1438
Q3 施密特正交化
已知向量
a
1
=
[
1
2
3
]
a_1=\begin{bmatrix}1\\2\\3\end{bmatrix}
a1=⎣
⎡123⎦
⎤和
a
2
=
[
1
1
1
]
a_2=\begin{bmatrix}1\\1\\1\end{bmatrix}
a2=⎣
⎡111⎦
⎤,将其变成正交向量组。其实只要知道公式就没有什么难度了。将其中一个向量作为第一个正交向量,这里选择
A
1
=
a
1
A1=a_1
A1=a1,所以:
A
2
=
a
2
−
a
1
T
a
2
a
1
T
a
1
a
1
=
[
8
14
2
14
−
4
14
]
A2=a_2-\frac{a_1^Ta_2}{a_1^Ta_1}a_1=\begin{bmatrix}\frac{8}{14}\\\frac{2}{14}\\\frac{-4}{14}\end{bmatrix}
A2=a2−a1Ta1a1Ta2a1=⎣
⎡14814214−4⎦
⎤
所求的正交基为
A
1
A1
A1
A
2
A2
A2组成的向量组。
Q4 特征值与矩阵可逆的关系
特征值全不为0的充要条件是矩阵可逆。假设特征值为零, A x = λ x Ax=\lambda x Ax=λx变成 A x = 0 Ax=0 Ax=0,如果矩阵 A A A可逆,那么特征值为零与特征向量定义矛盾,所以特征值要全不为零。或者你可以直接用矩阵行列式的值等于特征值之积,一旦有一个为0,行列式就会为零,也就是奇异(不可逆的)
除此,矩阵逆的行列式等于特征值之积的倒数。
A + I A+I A+I的迹等于原迹+阶数。
Q5 求有递推矩阵的行列式
矩阵的变化规律如下:
A
4
=
[
1
1
0
0
1
1
1
0
0
1
1
1
0
0
1
1
]
A_4=\begin{bmatrix}1&1&0&0\\1&1&1&0\\0&1&1&1\\0&0&1&1\end{bmatrix}
A4=⎣
⎡1100111001110011⎦
⎤
OK!基本思路利用代数余子式进行展开,然后再利用特征值求解。设:
D
n
=
d
e
t
(
A
n
)
D_n=det(A_n)
Dn=det(An)
D
n
=
?
D
n
−
1
+
?
D
n
−
2
D_n=?D_{n-1}+?D_{n-2}
Dn=?Dn−1+?Dn−2
按第一行展开,第一个元素的行列式为:
D
n
−
1
D_{n-1}
Dn−1,第二个元素的行列式为
−
D
n
−
2
-D_{n-2}
−Dn−2,所以:
D
n
=
D
n
−
1
−
D
n
−
2
D_n=D_{n-1}-D_{n-2}
Dn=Dn−1−Dn−2
增加一个方程:
D
n
−
1
=
D
n
−
1
D_{n-1}=D_{n-1}
Dn−1=Dn−1
两个式子写成矩阵形式:
[
D
n
D
n
−
1
]
=
[
1
−
1
1
0
]
[
D
n
−
1
D
n
−
2
]
\begin{bmatrix}D_n\\D_{n-1}\end{bmatrix}=\begin{bmatrix}1&-1\\1&0\end{bmatrix}\begin{bmatrix}D_{n-1}\\D_{n-2}\end{bmatrix}
[DnDn−1]=[11−10][Dn−1Dn−2]
容易求的其特征值为:
λ
=
1
±
3
i
2
\lambda=\frac{1\pm\sqrt{3}i}{2}
λ=21±3i
特征根为负数,且模为1,如果在复平面上表示恰好在单位圆的上下两部分(角度为正负60度位置),用欧拉公式也可以写成指数形式
e
π
3
i
e^{\frac{\pi}{3}i}
e3πi和
e
−
π
3
i
e^{-\frac{\pi}{3}i}
e−3πi,这里不进行具体的求解。
那么这个矩阵的稳定性如何?之前的课程里说到指数函数通过特征值 λ \lambda λ是否大于1即可得出矩阵是否稳定,对于虚数暂未讨论,这里的特征根是一个虚数,且其六次方为1,所以是一个既不收敛也不发散的周期函数。
Q6给出下面变化规律的矩阵:
A
4
=
[
0
1
0
0
1
0
2
0
0
2
0
3
0
0
3
0
]
=
A
4
T
A_4=\begin{bmatrix}0&1&0&0\\1&0&2&0\\0&2&0&3\\0&0&3&0\end{bmatrix}=A_4^T
A4=⎣
⎡0100102002030030⎦
⎤=A4T
- 求投影到
A
3
=
[
0
1
0
1
0
2
0
2
0
]
A_3=\begin{bmatrix}0&1&0\\1&0&2\\0&2&0\end{bmatrix}
A3=⎣
⎡010102020⎦
⎤的投影矩阵。
在前几节的课上, 我们讨论了在直线和平面的投影,他们都可以归结于一个公式:
P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT
不过对于对直线投影我们有更加特殊的形式( A T A = 1 A T A A^TA=\frac{1}{A^TA} ATA=ATA1),即
P = A A T A T A P=\frac{AA^T}{A^TA} P=ATAAAT
对于更加大的空间,也可以使用其一般式子:
P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)−1AT
计算的时候发现没有办法直接通过上述矩阵运算直接求解,因为 A T A A^TA ATA是不可逆的,只能是求更低维度的投影(平面)。也就是 A = [ 0 1 1 0 0 2 ] A=\begin{bmatrix}0&1\\1&0\\0&2\end{bmatrix} A=⎣ ⎡010102⎦ ⎤.
P = [ 0.2000 0 0.4000 0 1.0000 0 0.4000 0 0.8000 ] P= \begin{bmatrix}0.2000 & 0 & 0.4000\\ 0 & 1.0000 & 0\\0.4000 & 0 & 0.8000\end{bmatrix} P=⎣ ⎡0.200000.400001.000000.400000.8000⎦ ⎤
-
求 A 3 A_3 A3的特征值和特征向量
特征值容易题求得为 0 0 0和 ± 5 \pm\sqrt{5} ±5,特征向量略。 -
求投影到 A 4 A_4 A4列空间的投影矩阵
最简单的方法就是套用公式,但是可以更加简单,因为矩阵是可逆的,所以投影矩阵应该是一个单位向量。因为 P = A ( A T A ) − 1 A T = A A − 1 ( A T ) − 1 A T = I P=A(A^TA)^{-1}A^T=AA^{-1}(A^T)^{-1}A^T=I P=A(ATA)−1AT=AA−1(AT)−1AT=I