[笔记][总结] MIT线性代数 Gilbert Strang 广义逆

作者水平有限,欢迎大家提出文中错误

四个基本子空间的图像

矩阵 A m ∗ n A_{m*n} Amn,描述了线性变换 T ( ∗ ) :   ℜ n → ℜ m T(*):\ \real^n\rightarrow\real^m T(): nm(只考虑矩阵右乘)

T T T有一个特性: ∀   v   ∈   C ( A ) ,   T ( v ) = w ,   t h e n   w ∈ C ( A T ) {\forall}\ v\ {\in}\ C(A),\ T(v)=w,\ then\ w\in{C(A^T)}  v  C(A), T(v)=w, then wC(AT)并且在 C ( A ) C(A) C(A) C ( A T ) C(A^T) C(AT)上, T T T是一个双射,也就是说 ∃   T − 1 : ℜ m → ℜ n , T − 1 ( w ) = v \exists\ T^{-1}:\real^m\rightarrow\real^n,T^{-1}(w)=v  T1:mn,T1(w)=v

证明:
假设已有 A v = w Av=w Av=w w ≠ 0 w\not=0 w=0(因为 v ∉ N ( A ) v{\notin}N(A) v/N(A)),若又有 A x = w Ax=w Ax=w,则 A ( v − x ) = 0 A(v-x)=0 A(vx)=0,所以说 v = w v=w v=w,单射证毕。
∀   w ∈ C ( A T ) ,   ∃   v ∈ C ( A ) , A x = w \forall\ w\in C(A^T),\ \exist\ v\in C(A),Ax=w  wC(AT),  vC(A),Ax=w,满射证毕。
至此,已经对这四个基本子空间有个如下了解

  1. d i m   C ( A ) = d i m   C ( A T ) = r dim\ C(A)=dim\ C(A^T)=r dim C(A)=dim C(AT)=r
  2. d i m   N ( A ) = n − r ,   d i m   N ( A T ) = m − r dim\ N(A)=n-r,\ dim\ N(A^T)=m-r dim N(A)=nr, dim N(AT)=mr
  3. C ( A ) C(A) C(A)中的向量和 C ( A T ) C(A^T) C(AT)中的向量存在唯一对应的关系。
  4. N ( A ) ⊆ R n ,   C ( A T ) ⊆ R n N(A)\subseteq \mathbb R^n,\ C(A^T)\subseteq\mathbb R^n N(A)Rn, C(AT)Rn N ( A T ) ⊆ R m ,   C ( A ) ⊆ R m N(A^T)\subseteq \mathbb R^m,\ C(A)\subseteq \mathbb R^m N(AT)Rm, C(A)Rm

一个列满秩的矩阵 A 3 ∗ 2 A_{3*2} A32 r a n k   A = 2 rank\ A=2 rank A=2
在这里插入图片描述
秩为1的矩阵 A 3 ∗ 2 A_{3*2} A32
在这里插入图片描述

广义逆的含义

上一节得出了一个重要结论,矩阵 A A A描述了一个线性变换 T T T如果将像空间限制在 C ( A ) C(A) C(A),原像空间限制在 C ( A T ) C(A^T) C(AT),那么 T T T是双射。双射意味着像空间和原像空间的所有元素间都存在这逐一对应关系,所以对于矩阵 A A A,我们总能找到矩阵 A + A^+ A+,其描述的线性变换可以使像空间 C ( A ) C(A) C(A)的元素映射回原像空间 C ( A T ) C(A^T) C(AT)

从可逆矩阵的逆说起

只有可逆矩阵的逆才满足
A A − 1 = A − 1 A = I AA^{-1}=A^{-1}A=I AA1=A1A=I
此时 r = m = n , f u l l   r a n k r=m=n,full\ rank r=m=n,full rank

左逆

r = n < m , f u l l   c o l u m n   r a n k r=n<m,full\ column\ rank r=n<m,full column rank,此时零空间 N ( A ) = { 0 } N(A)=\{0\} N(A)={0}
在最小二乘法中知道, A T A A^TA ATA满秩,所以存在
( A T A ) − 1 A T A = I (A^TA)^{-1}A^TA=I (ATA)1ATA=I
其中 ( A T A ) − 1 A T (A^TA)^{-1}A^T (ATA)1AT,被称为列满秩矩阵 A A A左逆
A l e f t   n ∗ m − 1 A m ∗ n = I n ∗ n A_{left\ n*m}^{-1}A_{m*n}=I_{n*n} Aleft nm1Amn=Inn
如果把列满秩的矩阵 A A A的左逆放在 A A A的右边
A m ∗ n A l e f t   n ∗ m − 1 = A ( A T A ) − 1 A T A_{m*n}A_{left\ n*m}^{-1}=A(A^TA)^{-1}A^T AmnAleft nm1=A(ATA)1AT
列空间投影矩阵

右逆

r = m < n , f u l l   r o w   r a n k r=m<n,full\ row\ rank r=m<n,full row rank,此时左零空间 N ( A T ) = { 0 } N(A^T)=\{0\} N(AT)={0}
此时 A A T AA^T AAT是可逆的
A A T ( A A T ) − 1 = I AA^T(AA^T)^{-1}=I AAT(AAT)1=I
其中 A T ( A A T ) − 1 A^T(AA^T)^{-1} AT(AAT)1,被称为行满秩矩阵 A A A右逆
A m ∗ n A r i g h t   n ∗ m − 1 = I m ∗ m A_{m*n}A^{-1}_{right\ n*m}=I_{m*m} AmnAright nm1=Imm
如果把行满秩的矩阵 A A A的右逆放在 A A A的左边
A r i g h t   n ∗ m − 1 A m ∗ n = A T ( A A T ) − 1 A A_{right\ n*m}^{-1}A_{m*n}=A^T(AA^T)^{-1}A Aright nm1Amn=AT(AAT)1A
行空间投影矩阵

伪逆

如果不保证行满秩也不保证列满秩 r < m , r < n r<m,r<n r<m,r<n,那么 A A T AA^T AAT A T A A^TA ATA都有可能是奇异的,那么这时候,左逆和右逆就都不存在。
伪逆是存在的,正如文章一开头所说,如果将像空间和原像空间限制在列空间和行空间,那么任意矩阵 A A A所代表的线性变换,都是可逆的

奇异值分解的进一步探讨

A = U [ Σ O O O ] V T A=U \left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right] V^T A=U[ΣOOO]VT
先来看
[ Σ O O O ] \left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right] [ΣOOO]
如果它是方阵,其伪逆是将非零对角元全取倒数得到的对角阵
[ σ 1 σ 2 ⋱ σ r 0 ⋱ 0 ] [ 1 / σ 1 1 / σ 2 ⋱ 1 / σ r 0 ⋱ 0 ] = \left[ \begin{matrix} \sigma_1&&&&&&\\ &\sigma_2&&&&&\\ &&\ddots&&&&\\ &&&\sigma_r&&&\\ &&&&0&&\\ &&&&&\ddots&\\ &&&&&&0\\ \end{matrix} \right] \left[ \begin{matrix} 1/\sigma_1&&&&&&\\ &1/\sigma_2&&&&&\\ &&\ddots&&&&\\ &&&1/\sigma_r&&&\\ &&&&0&&\\ &&&&&\ddots&\\ &&&&&&0\\ \end{matrix} \right]= σ1σ2σr001/σ11/σ21/σr00=
[ 1 1 ⋱ 1 0 ⋱ 0 ] \left[ \begin{matrix} 1&&&&&&\\ &1&&&&&\\ &&\ddots&&&&\\ &&&1&&&\\ &&&&0&&\\ &&&&&\ddots&\\ &&&&&&0\\ \end{matrix} \right] 11100
对于一般情况
[ I r ∗ r O O O ] n ∗ n = [ Σ − 1 O O O ] n ∗ m [ Σ O O O ] m ∗ n \left[ \begin{matrix} I_{r*r}&O\\ O&O\\ \end{matrix} \right]_{n*n}= \left[ \begin{matrix} \Sigma^{-1}&O\\ O&O\\ \end{matrix} \right]_{n*m} \left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right]_{m*n} [IrrOOO]nn=[Σ1OOO]nm[ΣOOO]mn
[ I r ∗ r O O O ] m ∗ m = [ Σ O O O ] m ∗ n [ Σ − 1 O O O ] n ∗ m \left[ \begin{matrix} I_{r*r}&O\\ O&O\\ \end{matrix} \right]_{m*m}= \left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right]_{m*n} \left[ \begin{matrix} \Sigma^{-1}&O\\ O&O\\ \end{matrix} \right]_{n*m} [IrrOOO]mm=[ΣOOO]mn[Σ1OOO]nm
可见伪逆的左乘和右乘,得到的“单位矩阵”并不相同,左乘,得到的是向行空间的投影;右乘,得到的是向列空间的投影。

对于矩阵 A A A,记其伪逆为 A + A^+ A+
A + = V n ∗ n [ Σ − 1 O O O ] n ∗ m U m ∗ m A^+=V_{n*n} \left[ \begin{matrix} \Sigma^{-1}&O\\ O&O\\ \end{matrix} \right]_{n*m}U_{m*m} A+=Vnn[Σ1OOO]nmUmm

从线性变换的角度来看,伪逆代表了什么

已经知道 A + A A^+A A+A是行空间的单位投影矩阵, A A + AA^+ AA+是列空间的单位投影矩阵
现在有一个向量 v ∈ C ( A T ) v\in C(A^T) vC(AT),经过 A A A的线性变换后,只保留了 r r r维的信息,其余的 n − r n-r nr维信息丢失了,被压缩成了零向量。
A + A^+ A+想要尽力找到 A v Av Av的原像时,能做到的最多是把没有丢失的 r r r维信息进行恢复,被压缩成零向量的 n − r n-r nr个维度已经无力回天。
A A + AA^+ AA+也是同理, A A A只能尽力恢复左乘 A + A^+ A+时还保留着的信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值