文章目录
本文在学习《麻省理工公开课 线性代数 MIT 18.06 Linear Algebra》总结反思形成
视频链接:MITB站视频
笔记部分:总结参考子实
33.复习三
在上一次复习中,我们已经涉及了求特征值与特征向量(通过解方程 det ( A − λ I ) = 0 \det(A-\lambda I)=0 det(A−λI)=0得出 λ \lambda λ,再将 λ \lambda λ带入 A − λ I A-\lambda I A−λI求其零空间得到 x x x)。
复习提纲
- 解微分方程 d u d t = A u \frac{\mathrm{d}u}{\mathrm{d}t}=Au dtdu=Au,并介绍了指数矩阵 e A t e^{At} eAt;
- 介绍了对称矩阵的性质 A = A T A=A^T A=AT,了解了其特征值均为实数且总是存在足量的特征向量(即使特征值重复特征向量也不会短缺,总是可以对角化);同时对称矩阵的特征向量正交,所以对称矩阵对角化的结果可以表示为 A = Q Λ Q T A=Q\Lambda Q^T A=QΛQT;
- 正定矩阵;
- 相似矩阵, B = M − 1 A M B=M^{-1}AM B=M−1AM,矩阵 A , B A,B A,B特征值相同,其实相似矩阵是用不同的基表示相同的东西;
- 奇异值分解 A = U Σ V T A=U\varSigma V^T A=UΣVT
例题详解
-
解方程 d u d t = A u = [ 0 − 1 0 1 0 − 1 0 1 0 ] u \frac{\mathrm{d}u}{\mathrm{d}t}=Au=\begin{bmatrix}0&-1&0\\1&0&-1\\0&1&0\end{bmatrix}u dtdu=Au=⎣⎡010−1010−10⎦⎤u。
解法1:
首先通过 A A A的特征值/向量求通解 u ( t ) = c 1 e λ 1 t x 1 + c 2 e λ 2 t x 2 + c 3 e λ 3 t x 3 u(t)=c_1e^{\lambda_1t}x_1+c_2e^{\lambda_2t}x_2+c_3e^{\lambda_3t}x_3 u(t)=c1eλ1tx1+c2eλ2tx2+c3eλ3tx3,很明显矩阵是奇异的,所以有 λ 1 = 0 \lambda_1=0 λ1=0;、
继续观察矩阵会发现 A T = − A A^T=-A AT=−A,这是一个反对称矩阵(anti-symmetric)或斜对陈矩阵(skew-symmetric),这与我们在第二十一讲介绍过的旋转矩阵类似,它的特征值应该为纯虚数(特征值在虚轴上),所以我们猜测其特征值应为 0 ⋅ i , b ⋅ i , − b ⋅ i 0\cdot i,\ b\cdot i,\ -b\cdot i 0⋅i, b⋅i, −b⋅i。通过解 det ( A − λ I ) = 0 \det(A-\lambda I)=0 det(A−λI)=0验证一下: [ − λ − 1 0 1 − λ − 1 0 1 λ ] = λ 3 + 2 λ = 0 , λ 2 = 2 i , λ 3 = − 2 i \begin{bmatrix}-\lambda&-1&0\\1&-\lambda&-1\\0&1&\lambda\end{bmatrix}=\lambda^3+2\lambda=0, \lambda_2=\sqrt 2i, \lambda_3=-\sqrt 2i ⎣⎡−λ10−1−λ10−1λ⎦⎤=λ3+2λ=0,λ2=2i,λ3=−2i。
此时 u ( t ) = c 1 + c 2 e 2 i t x 2 + c 3 e − 2 i t x 3 u(t)=c_1+c_2e^{\sqrt 2it}x_2+c_3e^{-\sqrt 2it}x_3 u(t)=c1+c2e2itx2+c3e−2itx3, e 2 i t e^{\sqrt 2it} e2it始终在复平面单位圆上,所以 u ( t ) u(t) u(t)及不发散也不收敛,它只是具有周期性。当 t = 0 t=0 t=0时有 u ( 0 ) = c 1 + c 2 + c 3 u(0)=c_1+c_2+c_3 u(0)=c1+c2+c3,如果使 e 2 i T = 1 e^{\sqrt 2iT}=1 e2iT=1即 2 i T = 2 π i \sqrt 2iT=2\pi i 2iT=2πi则也能得到 u ( T ) = c 1 + c 2 + c 3 u(T)=c_1+c_2+c_3 u(T)=c1+c2+c3,周期 T = π 2 T=\pi\sqrt 2 T=π2。
知识点 :当矩阵满足什么条件时,其特征向量相互正交?
答案是必须满足 A A T = A T A AA^T=A^TA AAT=ATA。
所以对称矩阵 A = A T A=A^T A=AT满足此条件,
同时反对称矩阵 A = − A T A=-A^T A=−AT也满足此条件,
而正交矩阵 Q − 1 = Q T Q^{-1}=Q^T Q−1=QT同样满足此条件,这三种矩阵的特征向量都是相互正交的
解法2:
上面的解法并没有求特征向量,进而通过 u ( t ) = e A t u ( 0 ) u(t)=e^{At}u(0) u(t)=eAtu(0)得到通解,现在我们就来使用指数矩阵来解方程。
如果矩阵可以对角化(在本例中显然可以),则 A = S Λ S − 1 , e A t = S e Λ t S − 1 = S [ e λ 1 t e λ 1 t ⋱ e λ 1 t ] S − 1 A=S\Lambda S^{-1}, e^{At}=Se^{\Lambda t}S^{-1}=S\begin{bmatrix}e^{\lambda_1t}&&&\\&e^{\lambda_1t}&&\\&&\ddots&\\&&&e^{\lambda_1t}\end{bmatrix}S^{-1} A=SΛS−1,eAt=SeΛtS−1=S⎣⎢⎢⎡eλ1teλ1t⋱eλ1t⎦⎥⎥⎤S−1
点评:这个公式在能够快速计算 S , λ S,\lambda S,λ时很方便求解。
-
已知矩阵的特征值 λ 1 = 0 , λ 2 = c , λ 3 = 2 \lambda_1=0,\lambda_2=c,\lambda_3=2 λ1=0,λ2=c,λ3=2,特征向量 x 1 = [ 1 1 1 ] , x 2 = [ 1 − 1 0 ] , x 3 = [ 1 1 − 2 ] x_1=\begin{bmatrix}1\\1\\1\end{bmatrix},x_2=\begin{bmatrix}1&-1&0\end{bmatrix},x_3=\begin{bmatrix}1\\1\\-2\end{bmatrix} x1=⎣⎡111⎦⎤,x2=[1−10],x3=⎣⎡11−2⎦⎤:
-
c c c如何取值才能保证矩阵可以对角化?
其实可对角化只需要有足够的特征向量即可,而现在特征向量已经足够,所以 c c c可以取任意值。
-
c c c如何取值才能保证矩阵对称?
我们知道,对称矩阵的特征值均为实数,且注意到给出的特征向量是正交的,有了实特征值及正交特征向量,我们就可以得到对称矩阵。
-
c c c如何取值才能使得矩阵正定?
已经有一个零特征值了,所以矩阵不可能是正定的,但可以是半正定的,如果 c c c去非负实数。
-
c c c如何取值才能使得矩阵是一个马尔科夫矩阵?
在第二十四讲我们知道马尔科夫矩阵的性质:必有特征值等于 1 1 1,其余特征值均小于 1 1 1,所以 A A A不可能是马尔科夫矩阵。
-
c c c取何值才能使得 P = A 2 P=\frac{A}{2} P=2A是一个投影矩阵?
我们知道投影矩阵的一个重要性质是 P 2 = P P^2=P P2=P,所以有对其特征值有 λ 2 = λ \lambda^2=\lambda λ2=λ,则 c = 0 , 2 c=0,2 c=0,2。
点评:题设中的正交特征向量意义重大,如果没有正交这个条件,则矩阵 A A A不会是对称、正定、投影矩阵。因为特征向量的正交性我们才能直接去看特征值的性质。
-
-
复习奇异值分解, A = U Σ V T A=U\varSigma V^T A=UΣVT:
先求正交矩阵 V V V: A T A = V Σ T U T U Σ V T = V ( Σ T Σ ) V T A^TA=V\varSigma^TU^TU\varSigma V^T=V\left(\varSigma^T\varSigma\right)V^T ATA=VΣTUTUΣVT=V(ΣTΣ)VT,所以 V V V是矩阵 A T A A^TA ATA的特征向量矩阵,而矩阵 Σ T Σ \varSigma^T\varSigma ΣTΣ是矩阵 A T A A^TA ATA的特征值矩阵,即 A T A A^TA ATA的特征值为 σ 2 \sigma^2 σ2。
接下来应该求正交矩阵 U U U: A A T = U Σ T V T V Σ U T = U ( Σ T Σ ) U T AA^T=U\varSigma^TV^TV\varSigma U^T=U\left(\varSigma^T\varSigma\right)U^T AAT=UΣTVTVΣUT=U(ΣTΣ)UT,但是请注意,我们在这个式子中无法确定特征向量的符号,我们需要使用 A v i = σ i u i Av_i=\sigma_iu_i Avi=σiui,通过已经求出的 v i v_i vi来确定 u i u_i ui的符号(因为 A V = U Σ AV=U\varSigma AV=UΣ),进而求出 U U U。
举例点评:已知 A = [ u 1 u 2 ] [ 3 0 0 2 ] [ v 1 v 2 ] T A=\bigg[u_1\ u_2\bigg]\begin{bmatrix}3&0\\0&2\end{bmatrix}\bigg[v_1\ v_2\bigg]^T A=[u1 u2][3002][v1 v2]T
从已知的 Σ \varSigma Σ矩阵可以看出, A A A矩阵是非奇异矩阵,因为它没有零奇异值。另外,如果把 Σ \varSigma Σ矩阵中的 2 2 2改成 − 5 -5 −5,则题目就不再是奇异值分解了,因为奇异值不可能为负;如果将 2 2 2变为 0 0 0,则 A A A是奇异矩阵,它的秩为 1 1 1,零空间为 1 1 1维, v 2 v_2 v2在其零空间中。
-
A A A是正交对称矩阵,那么它的特征值具有什么特点?
首先,对于对称矩阵,有特征值均为实数;
然后是正交矩阵,直觉告诉我们 ∣ λ ∣ = 1 |\lambda|=1 ∣λ∣=1。
对于 Q x = λ x Qx=\lambda x Qx=λx,我们两边同时取模有 ∥ Q x ∥ = ∣ λ ∣ ∥ x ∥ \|Qx\|=|\lambda|\|x\| ∥Qx∥=∣λ∣∥x∥,而正交矩阵不会改变向量长度,所以有 ∥ x ∥ = ∣ λ ∣ ∥ x ∥ \|x\|=|\lambda|\|x\| ∥x∥=∣λ∣∥x∥,因此 λ = ± 1 \lambda=\pm1 λ=±1。
-
A A A是正定的吗?
并不一定,因为特征向量可以取 − 1 -1 −1。
-
A A A的特征值没有重复吗?
不是,如果矩阵大于 2 2 2阶则必定有重复特征值,因为只能取 ± 1 \pm1 ±1。
-
A A A可以被对角化吗?
是的,任何对称矩阵、任何正交矩阵都可以被对角化。
-
A A A是非奇异矩阵吗?
是的,正交矩阵都是非奇异矩阵。很明显它的特征值都不为零。
-
证明 P = 1 2 ( A + I ) P=\frac{1}{2}(A+I) P=21(A+I)是投影矩阵。
证法1:我们使用投影矩阵的性质验证,首先由于 A A A是对称矩阵,则 P P P一定是对称矩阵;接下来需要验证 P 2 = P P^2=P P2=P,也就是 1 4 ( A 2 + 2 A + I ) = 1 2 ( A + I ) \frac{1}{4}\left(A^2+2A+I\right)=\frac{1}{2}(A+I) 41(A2+2A+I)=21(A+I)。来看看 A 2 A^2 A2是什么, A A A是正交矩阵则 A T = A − 1 A^T=A^{-1} AT=A−1,而 A A A又是对称矩阵则 A = A T = A − 1 A=A^T=A^{-1} A=AT=A−1,所以 A 2 = I A^2=I A2=I。带入原式有 1 4 ( 2 A + 2 I ) = 1 2 ( A + I ) \frac{1}{4}(2A+2I)=\frac{1}{2}(A+I) 41(2A+2I)=21(A+I),得证。
证法2:我们可以使用特征值验证, A A A的特征值可以取 ± 1 \pm1 ±1,则 A + I A+I A+I的特征值可以取 0 , 2 0,2 0,2, 1 2 ( A + I ) \frac{1}{2}(A+I) 21(A+I)的特征值为 0 , 1 0,1 0,1,特征值满足投影矩阵且它又是对称矩阵,得证。
-
34.左右逆和伪逆
前面我们涉及到的逆(inverse)都是指左、右乘均成立的逆矩阵,即 A − 1 A = I = A A − 1 A^{-1}A=I=AA^{-1} A−1A=I=AA−1。在这种情况下, m × n m\times n m×n矩阵 A A A满足 m = n = r a n k ( A ) m=n=rank(A) m=n=rank(A),也就是满秩方阵。
左逆(left inserve)
左逆的由来和定义
最小二乘中(第十六讲)介绍过列满秩的情况,也就是列向量线性无关,但行向量通常不是线性无关的。常见的列满秩矩阵 A A A满足 m > n = r a n k ( A ) m>n=rank(A) m>n=rank(A)。
列满秩时,列向量线性无关,所以其零空间中只有零解,方程 A x = b Ax=b Ax=b可能有一个唯一解
b b b在 A A A的列空间中,此特解就是全部解,因为通常的特解可以通过零空间中的向量扩展出一组解集,而此时零空间只有列向量),也可能无解( b b b不在 A A A的列空间中。
此时行空间为 R n \mathbb{R}^n Rn,也正印证了与行空间互为正交补的零空间中只有列向量。
- 现在来观察
A
T
A
A^TA
ATA,也就是在
m
>
n
=
r
a
n
k
(
A
)
m>n=rank(A)
m>n=rank(A)的情况下,
n
×
m
n\times m
n×m矩阵乘以
m
×
n
m\times n
m×n矩阵,结果为一个满秩的
n
×
n
n\times n
n×n矩阵,所以
A
T
A
A^TA
ATA是一个可逆矩阵。也就是说
(
A
T
A
)
−
1
A
T
⏟
A
=
I
\underbrace{\left(A^TA\right)^{-1}A^T}A=I
(ATA)−1ATA=I成立,而大括号部分的
(
A
T
A
)
−
1
A
T
\left(A^TA\right)^{-1}A^T
(ATA)−1AT称为长方形矩阵
A
A
A的左逆
A l e f t − 1 = ( A T A ) − 1 A T A^{-1}_{left}=\left(A^TA\right)^{-1}A^T Aleft−1=(ATA)−1AT
最小二乘复习
关键方程 A T A x ^ = A T b A^TA\hat x=A^Tb ATAx^=ATb,
A
l
e
f
t
−
1
A^{-1}_{left}
Aleft−1被当做一个系数矩阵乘在
b
b
b向量上,求得
b
b
b向量投影在
A
A
A的列空间之后的解
x
^
=
(
A
T
A
)
−
1
A
T
b
\hat x=\left(A^TA\right)^{-1}A^Tb
x^=(ATA)−1ATb
如果我们强行给左逆左乘矩阵
A
A
A,得到的矩阵就是投影矩阵
P
=
A
(
A
T
A
)
−
1
A
T
P=A\left(A^TA\right)^{-1}A^T
P=A(ATA)−1AT,来自
p
=
A
x
^
=
A
(
A
T
A
)
−
1
A
T
p=A\hat x=A\left(A^TA\right)^{-1}A^T
p=Ax^=A(ATA)−1AT,它将右乘的向量
b
b
b投影在矩阵
A
A
A的列空间中。
- 再来观察 A A T AA^T AAT矩阵,这是一个 m × m m\times m m×m矩阵,秩为 r a n k ( A A T ) = n < m rank(AA^T)=n<m rank(AAT)=n<m,也就是说 A A T AA^T AAT是不可逆的。
右逆(right inverse)
右逆也就是研究 m × n m\times n m×n矩阵 A A A行满秩的情况,此时 n > m = r a n k ( A ) n>m=rank(A) n>m=rank(A)。对称的,其左零空间中仅有零向量,即没有行向量的线性组合能够得到零向量。
行满秩时,矩阵的列空间将充满向量空间 C ( A ) = R m C(A)=\mathbb{R}^m C(A)=Rm,所以方程 A x = b Ax=b Ax=b总是有解集,由于消元后有 n − m n-m n−m个自由变量,所以方程的零空间为 n − m n-m n−m维。
- 与左逆对称,再来观察
A
A
T
AA^T
AAT,在
n
>
m
=
r
a
n
k
(
A
)
n>m=rank(A)
n>m=rank(A)的情况下,
m
×
n
m\times n
m×n矩阵乘以
n
×
m
n\times m
n×m矩阵,结果为一个满秩的
m
×
m
m\times m
m×m矩阵,所以此时
A
A
T
AA^T
AAT是一个满秩矩阵,也就是
A
A
T
AA^T
AAT可逆。所以
A
A
T
(
A
A
T
)
⏟
=
I
A\underbrace{A^T\left(AA^T\right)}=I
A
AT(AAT)=I,大括号部分的
A
T
(
A
A
T
)
A^T\left(AA^T\right)
AT(AAT)称为长方形矩阵的右逆
KaTeX parse error: Can't use function '$' in math mode at position 2: $̲A^{-1}_{right}=…
同样的,如果我们强行给右逆右乘矩阵 A A A,将得到另一个投影矩阵 P = A T ( A A T ) A P=A^T\left(AA^T\right)A P=AT(AAT)A,与上一个投影矩阵不同的是,这个矩阵的 A A A全部变为 A T A^T AT了。所以这是一个能够将右乘的向量 b b b投影在 A A A的行空间中。
前面我们提及了逆(方阵满秩),并讨论了左逆(矩阵列满秩)、右逆(矩阵行满秩),现在看一下第四种情况, m × n m\times n m×n矩阵 A A A不满秩的情况。
伪逆(pseudo inverse)
伪逆的基本思想
有 m × n m\times n m×n矩阵 A A A,满足 r a n k ( A ) < m i n ( m , n ) rank(A)\lt min(m,\ n) rank(A)<min(m, n),则
- 列空间 C ( A ) ∈ R m , dim C ( A ) = r C(A)\in\mathbb{R}^m,\ \dim C(A)=r C(A)∈Rm, dimC(A)=r,左零空间 N ( A T ) ∈ R m , dim N ( A T ) = m − r N\left(A^T\right)\in\mathbb{R}^m,\ \dim N\left(A^T\right)=m-r N(AT)∈Rm, dimN(AT)=m−r,列空间与左零空间互为正交补;
- 行空间 C ( A T ) ∈ R n , dim C ( A T ) = r C\left(A^T\right)\in\mathbb{R}^n,\ \dim C\left(A^T\right)=r C(AT)∈Rn, dimC(AT)=r,零空间 N ( A ) ∈ R n , dim N ( A ) = n − r N(A)\in\mathbb{R}^n,\ \dim N(A)=n-r N(A)∈Rn, dimN(A)=n−r,行空间与零空间互为正交补。
- 现在任取一个向量 x x x,乘上 A A A后结果 A x Ax Ax一定落在矩阵 A A A的列空间 C ( A ) C(A) C(A)中。而根据维数, x ∈ R n , A x ∈ R m x\in\mathbb{R}^n,\ Ax\in\mathbb{R}^m x∈Rn, Ax∈Rm,那么我们现在猜测,输入向量 x x x全部来自矩阵的行空间,而输出向量 A x Ax Ax全部来自矩阵的列空间,并且是一一对应的关系,
也就是 R n \mathbb{R}^n Rn的 r r r维子空间到 R m \mathbb{R}^m Rm的 r r r维子空间的映射。
而矩阵 A A A现在有这些零空间存在,其作用是将某些向量变为零向量,这样 R n \mathbb{R}^n Rn空间的所有向量都包含在行空间与零空间中,所有向量都能由行空间的分量和零空间的分量构成。伪逆变换将零空间的分量消除(不考虑)。
但如果我们只看行空间中的向量,那就全部变换到列空间中了。
- 那么,我们现在只看行空间与列空间,在行空间中任取两个向量 x , y ∈ C ( A T ) x,\ y\in C(A^T) x, y∈C(AT),则有 A x ≠ A y Ax\neq Ay Ax=Ay。所以从行空间到列空间,变换 A A A是个不错的映射,如果限制在这两个空间上, A A A可以说“是个可逆矩阵”,那么它的逆就称作伪逆,而这个伪逆的作用就是将列空间的向量一一映射到行空间中。通常,伪逆记作 A + A^+ A+,因此 A x = ( A x ) , y = A + ( A y ) Ax=(Ax),\ y=A^+(Ay) Ax=(Ax), y=A+(Ay)。
现在我们来证明对于 x , y ∈ C ( A T ) , x ≠ y x,y\in C\left(A^T\right),\ x\neq y x,y∈C(AT), x=y,有 A x , A y ∈ C ( A ) , A x ≠ A y Ax,Ay\in C(A),\ Ax\neq Ay Ax,Ay∈C(A), Ax=Ay:
- 反证法,设 A x = A y Ax=Ay Ax=Ay,则有 A ( x − y ) = 0 A(x-y)=0 A(x−y)=0,即向量 x − y ∈ N ( A ) x-y\in N(A) x−y∈N(A);
- 另一方面,向量 x , y ∈ C ( A T ) x,y\in C\left(A^T\right) x,y∈C(AT),所以两者之差 x − y x-y x−y向量也在 C ( A T ) C\left(A^T\right) C(AT)中,即 x − y ∈ C ( A T ) x-y\in C\left(A^T\right) x−y∈C(AT);
- 此时满足这两个结论要求的仅有一个向量,即零向量同时属于这两个正交的向量空间,从而得到 x = y x=y x=y,与题设中的条件矛盾,得证。
伪逆的应用
伪逆在统计学中非常有用,以前我们做最小二乘需要矩阵列满秩这一条件,只有矩阵列满秩才能保证 A T A A^TA ATA是可逆矩阵,而统计中经常出现重复测试,会导致列向量线性相关,在这种情况下 A T A A^TA ATA就成了奇异矩阵,这时候就需要伪逆。
伪逆的求解方法
接下来我们介绍如何计算伪逆 A + A^+ A+:
奇异值分解法
-
A = U Σ V T A=U\varSigma V^T A=UΣVT,其中的对角矩阵型为 Σ = [ σ 1 ⋱ σ 2 [ 0 ] ] \varSigma=\left[\begin{array}{c c c|c}\sigma_1&&&\\&\ddots&&\\&&\sigma_2&\\\hline&&&\begin{bmatrix}0\end{bmatrix}\end{array}\right] Σ=⎣⎢⎢⎡σ1⋱σ2[0]⎦⎥⎥⎤,对角线非零的部分来自 A T A , A A T A^TA,\ AA^T ATA, AAT比较好的部分,剩下的来自左/零空间。
-
看一下 Σ \varSigma Σ矩阵的伪逆是多少,这是一个 m × n m\times n m×n矩阵, r a n k ( Σ ) = r rank(\varSigma)=r rank(Σ)=r, Σ + = [ 1 σ 1 ⋱ 1 σ r [ 0 ] ] \varSigma^+=\left[\begin{array}{c c c|c}\frac{1}{\sigma_1}&&&\\&\ddots&&\\&&\frac{1}{\sigma_r}&\\\hline&&&\begin{bmatrix}0\end{bmatrix}\end{array}\right] Σ+=⎣⎢⎢⎡σ11⋱σr1[0]⎦⎥⎥⎤
Σ \varSigma Σ矩阵的伪逆是一个 n × m n\times m n×m矩阵
所以以下关系成立:
Σ Σ + = [ 1 ⋱ 1 [ 0 ] ] m × m Σ + Σ = [ 1 ⋱ 1 [ 0 ] ] n × n \varSigma\varSigma^+=\left[\begin{array}{c c c|c}1&&&\\&\ddots&&\\&&1&\\\hline&&&\begin{bmatrix}0\end{bmatrix}\end{array}\right]_{m\times m}\\\varSigma^+\varSigma=\left[\begin{array}{c c c|c}1&&&\\&\ddots&&\\&&1&\\\hline&&&\begin{bmatrix}0\end{bmatrix}\end{array}\right]_{n\times n} ΣΣ+=⎣⎢⎢⎡1⋱1[0]⎦⎥⎥⎤m×mΣ+Σ=⎣⎢⎢⎡1⋱1[0]⎦⎥⎥⎤n×n
观察 Σ Σ + \varSigma\varSigma^+ ΣΣ+和 Σ + Σ \varSigma^+\varSigma Σ+Σ不难发现, Σ Σ + \varSigma\varSigma^+ ΣΣ+是将向量投影到列空间上的投影矩阵,而 Σ + Σ \varSigma^+\varSigma Σ+Σ是将向量投影到行空间上的投影矩阵。
我们不论是左乘还是右乘伪逆,得到的不是单位矩阵,而是投影矩阵。
该投影将向量带入比较好的空间(行空间和列空间,而不是左/零空间)。
- 接下来我们来求
A
A
A的伪逆:
A + = V Σ + U T A^+=V\varSigma^+U^T A+=VΣ+UT
35.期末复习
从以往的试题入手复习知识点。
-
已知 m × n m\times n m×n矩阵 A A A,有 A x = [ 1 0 0 ] Ax=\begin{bmatrix}1\\0\\0\end{bmatrix} Ax=⎣⎡100⎦⎤无解; A x = [ 0 1 0 ] Ax=\begin{bmatrix}0\\1\\0\end{bmatrix} Ax=⎣⎡010⎦⎤仅有唯一解,求关于 m , n , r a n k ( A ) m,n,rank(A) m,n,rank(A)的信息。
解:首先,最容易判断的是 m = 3 m=3 m=3;而根据第一个条件可知,矩阵不满秩,有 r < m r<m r<m;
根据第二个条件可知,零空间仅有零向量,也就是矩阵消元后没有自由变量,列向量线性无关,所以有 r = n r=n r=n。
综上,有 m = 3 > n = r m=3>n=r m=3>n=r。
-
根据所求写出一个矩阵 A A A的特例: A = [ 0 0 1 0 0 1 ] A=\begin{bmatrix}0&0\\1&0\\0&1\end{bmatrix} A=⎣⎡010001⎦⎤。
-
det A T A = ? det A A T \det A^TA\stackrel{?}{=}\det AA^T detATA=?detAAT
不相等,因为 A T A A^TA ATA可逆而 A A T AA^T AAT不可逆,所以行列式不相等。(但是对于方阵, det A B = det B A \det AB=\det BA detAB=detBA恒成立。)
-
A T A A^TA ATA可逆吗?
是,因为 r = n r=n r=n,矩阵列向量线性无关,即列满秩。
-
A A T AA^T AAT正定吗?
否,因为 A A T AA^T AAT是 3 × n 3\times n 3×n矩阵与 n × 3 n\times 3 n×3矩阵之积,是一个三阶方阵,而 A A T AA^T AAT秩为 2 2 2,所以不是正定矩阵。(不过 A A T AA^T AAT一定是半正定矩阵。)
-
求证 A T y = c A^Ty=c ATy=c至少有一个解
因为 A A A的列向量线性无关,所以 A T A^T AT的行向量线性无关,消元后每行都有主元,且总有自由变量,所以零空间中有非零向量,零空间维数是 m − r m-r m−r(可以直接从 dim N ( A T ) = m − r \dim N\left(A^T\right)=m-r dimN(AT)=m−r得到结论)。
-
-
设 A = [ v 1 v 2 v 3 ] A=\Bigg[v_1\ v_2\ v_3\Bigg] A=[v1 v2 v3],对于 A x = v 1 − v 2 + v 3 Ax=v_1-v_2+v_3 Ax=v1−v2+v3,求 x x x。
按列计算矩阵相乘,有 x = [ 1 − 1 1 ] x=\begin{bmatrix}1\\-1\\1\end{bmatrix} x=⎣⎡1−11⎦⎤。
-
若Ax=v_1-v_2+v_3=0,则解是唯一的吗?为什么。
如果解是唯一的,则零空间中只有零向量,而在此例中 x = [ 1 − 1 1 ] x=\begin{bmatrix}1\\-1\\1\end{bmatrix} x=⎣⎡1−11⎦⎤就在零空间中,所以解不唯一。
-
*若 v 1 , v 2 , v 3 v_1,v_2,v_3 v1,v2,v3是标准正交向量,那么怎样的线性组合 c 1 v 1 + c 2 v 2 c_1v_1+c_2v_2 c1v1+c2v2能够最接近 v 3 v_3 v3?
此问是考察投影概念,由于是正交向量,所以只有 0 0 0向量最接近 v 3 v_3 v3。
-
-
矩阵 A = [ . 2 . 4 . 3 . 4 . 2 . 3 . 4 . 4 . 4 ] A=\begin{bmatrix}.2&.4&.3\\.4&.2&.3\\.4&.4&.4\end{bmatrix} A=⎣⎡.2.4.4.4.2.4.3.3.4⎦⎤,求稳态。
-
这是个马尔科夫矩阵,前两之和为第三列的两倍,奇异矩阵总有一个特征值为 0 0 0,而马尔科夫矩阵总有一个特征值为 1 1 1,剩下一个特征值从矩阵的迹得知为 − . 2 -.2 −.2。
-
再看马尔科夫过程,设从 u ( 0 ) u(0) u(0)开始, u k = A k u 0 , u 0 = [ 0 10 0 ] u_k=A^ku_0, u_0=\begin{bmatrix}0\\10\\0\end{bmatrix} uk=Aku0,u0=⎣⎡0100⎦⎤。先代入特征值 λ 1 = 0 , λ 2 = 1 , λ 3 = − . 2 \lambda_1=0,\ \lambda_2=1,\ \lambda_3=-.2 λ1=0, λ2=1, λ3=−.2查看稳态 u k = c 1 λ 1 k x 1 + c 2 λ 2 k x 2 + c 3 λ 3 k x 3 u_k=c_1\lambda_1^kx_1+c_2\lambda_2^kx_2+c_3\lambda_3^kx_3 uk=c1λ1kx1+c2λ2kx2+c3λ3kx3,当 k → ∞ k\to\infty k→∞,第一项与第三项都会消失,剩下 u ∞ = c 2 x 2 u_\infty=c_2x_2 u∞=c2x2。
-
到这里我们只需求出 λ 2 \lambda_2 λ2对应的特征向量即可,带入特征值求解 ( A − I ) x = 0 (A-I)x=0 (A−I)x=0,有 [ − . 8 . 4 . 3 . 4 − . 8 . 3 . 4 . 4 − . 6 ] [ ? ? ? ] = [ 0 0 0 ] \begin{bmatrix}-.8&.4&.3\\.4&-.8&.3\\.4&.4&-.6\end{bmatrix}\begin{bmatrix}?\\?\\?\end{bmatrix}=\begin{bmatrix}0\\0\\0\end{bmatrix} ⎣⎡−.8.4.4.4−.8.4.3.3−.6⎦⎤⎣⎡???⎦⎤=⎣⎡000⎦⎤,可以消元得,也可以直接观察得到 x 2 = [ 3 3 4 ] x_2=\begin{bmatrix}3\\3\\4\end{bmatrix} x2=⎣⎡334⎦⎤。
-
剩下就是求 c 2 c_2 c2了,可以通过 u 0 u_0 u0一一解出每个系数,但是这就需要解出每一个特征值。另一种方法,我们可以通过马尔科夫矩阵的特性知道,对于马尔科夫过程的每一个 u k u_k uk都有其分量之和与初始值分量之和相等,所以对于 x 2 = [ 3 3 4 ] x_2=\begin{bmatrix}3\\3\\4\end{bmatrix} x2=⎣⎡334⎦⎤,有 c 2 = 1 c_2=1 c2=1。所以最终结果是
u ∞ = [ 3 3 4 ] u_\infty=\begin{bmatrix}3\\3\\4\end{bmatrix} u∞=⎣⎡334⎦⎤
-
-
对于二阶方阵,回答以下问题:
-
求投影在直线 a = [ 4 − 3 ] a=\begin{bmatrix}4\\-3\end{bmatrix} a=[4−3]上的投影矩阵
应为 P = a a T a T a P=\frac{aa^T}{a^Ta} P=aTaaaT。
-
已知特征值 λ 1 = 2 , x 1 = [ 1 2 ] λ 2 = 3 , x 2 = [ 2 1 ] \lambda_1=2,\ x_1=\begin{bmatrix}1\\2\end{bmatrix}\quad \lambda_2=3,\ x_2=\begin{bmatrix}2\\1\end{bmatrix} λ1=2, x1=[12]λ2=3, x2=[21]求原矩阵 A A A
从对角化公式得 A = S Λ S − 1 = [ 1 2 2 1 ] [ 0 0 0 3 ] [ 1 2 2 1 ] − 1 A=S\Lambda S^{-1}=\begin{bmatrix}1&2\\2&1\end{bmatrix}\begin{bmatrix}0&0\\0&3\end{bmatrix}\begin{bmatrix}1&2\\2&1\end{bmatrix}^{-1} A=SΛS−1=[1221][0003][1221]−1,解之即可。
-
A A A是一个实矩阵,且对任意矩阵 B B B, A A A都不能分解成 A = B T B A=B^TB A=BTB,给出 A A A的一个例子
我们知道 B T B B^TB BTB是对称的,所以给出一个非对称矩阵即可。
-
矩阵 A A A有正交的特征向量,但不是对称的,给出一个 A A A的例子
我们在三十三讲提到过,反对称矩阵,因为满足 A A T = A T A AA^T=A^TA AAT=ATA而同样具有正交的特征向量,所以有 A = [ 0 1 − 1 0 ] A=\begin{bmatrix}0&1\\-1&0\end{bmatrix} A=[0−110]或旋转矩阵 [ cos θ − sin θ sin θ cos θ ] \begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{bmatrix} [cosθsinθ−sinθcosθ],这些矩阵都具有复数域上的正交特征向量组。
-
-
最小二乘问题,因为时间的关系直接写出计算式和答案, [ 1 0 1 1 1 2 ] [ C D ] = [ 3 4 1 ] ( A x = b ) \begin{bmatrix}1&0\\1&1\\1&2\end{bmatrix}\begin{bmatrix}C\\D\end{bmatrix}=\begin{bmatrix}3\\4\\1\end{bmatrix}(Ax=b) ⎣⎡111012⎦⎤[CD]=⎣⎡341⎦⎤(Ax=b),解得 [ C ^ D ^ ] = [ 11 3 − 1 ] \begin{bmatrix}\hat C\\\hat D\end{bmatrix}=\begin{bmatrix}\frac{11}{3}\\-1\end{bmatrix} [C^D^]=[311−1]。
-
求投影后的向量 p p p:
向量 p p p就是向量 b b b在矩阵 A A A列空间中的投影,所以 p = [ p 1 p 2 p 3 ] = [ 1 0 1 1 1 2 ] [ C ^ D ^ ] p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix}=\begin{bmatrix}1&0\\1&1\\1&2\end{bmatrix}\begin{bmatrix}\hat C\\\hat D\end{bmatrix} p=⎣⎡p1p2p3⎦⎤=⎣⎡111012⎦⎤[C^D^]。
-
求拟合直线的图像
x = 0 , 1 , 2 x=0,1,2 x=0,1,2时 y = p 1 , p 2 , p 2 y=p_1,p_2,p_2 y=p1,p2,p2所在的直线的图像, y = C ^ + D ^ x y=\hat C+\hat Dx y=C^+D^x即 y = 11 3 − x y=\frac{11}{3}-x y=311−x。
-
求一个向量 b b b使得最小二乘求得的 [ C ^ D ^ ] = [ 0 0 ] \begin{bmatrix}\hat C\\\hat D\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix} [C^D^]=[00]
我们知道最小二乘求出的向量 [ C ^ D ^ ] \begin{bmatrix}\hat C\\\hat D\end{bmatrix} [C^D^]使得 A A A列向量的线性组合最接近 b b b向量(即 b b b在 A A A列空间中的投影),如果这个线性组合为 0 0 0向量(即投影为 0 0 0),则 b b b向量与 A A A的列空间正交,所以可以取 b = [ 1 − 2 1 ] b=\begin{bmatrix}1\\-2\\1\end{bmatrix} b=⎣⎡1−21⎦⎤同时正交于 A A A的两个列向量。
-