作者水平有限,欢迎大家提出文中错误
四个基本子空间的图像
矩阵 A m ∗ n A_{m*n} Am∗n,描述了线性变换 T ( ∗ ) : ℜ n → ℜ m T(*):\ \real^n\rightarrow\real^m T(∗): ℜn→ℜm(只考虑矩阵右乘)
T T T有一个特性: ∀ v ∈ C ( A ) , T ( v ) = w , t h e n w ∈ C ( A T ) {\forall}\ v\ {\in}\ C(A),\ T(v)=w,\ then\ w\in{C(A^T)} ∀ v ∈ C(A), T(v)=w, then w∈C(AT),并且在 C ( A ) C(A) C(A)与 C ( A T ) C(A^T) C(AT)上, T T T是一个双射,也就是说 ∃ T − 1 : ℜ m → ℜ n , T − 1 ( w ) = v \exists\ T^{-1}:\real^m\rightarrow\real^n,T^{-1}(w)=v ∃ T−1:ℜm→ℜn,T−1(w)=v
证明:
假设已有
A
v
=
w
Av=w
Av=w且
w
≠
0
w\not=0
w=0(因为
v
∉
N
(
A
)
v{\notin}N(A)
v∈/N(A)),若又有
A
x
=
w
Ax=w
Ax=w,则
A
(
v
−
x
)
=
0
A(v-x)=0
A(v−x)=0,所以说
v
=
w
v=w
v=w,单射证毕。
∀
w
∈
C
(
A
T
)
,
∃
v
∈
C
(
A
)
,
A
x
=
w
\forall\ w\in C(A^T),\ \exist\ v\in C(A),Ax=w
∀ w∈C(AT), ∃ v∈C(A),Ax=w,满射证毕。
至此,已经对这四个基本子空间有个如下了解
- d i m C ( A ) = d i m C ( A T ) = r dim\ C(A)=dim\ C(A^T)=r dim C(A)=dim C(AT)=r
- d i m N ( A ) = n − r , d i m N ( A T ) = m − r dim\ N(A)=n-r,\ dim\ N(A^T)=m-r dim N(A)=n−r, dim N(AT)=m−r
- C ( A ) C(A) C(A)中的向量和 C ( A T ) C(A^T) C(AT)中的向量存在唯一对应的关系。
- N ( A ) ⊆ R n , C ( A T ) ⊆ R n N(A)\subseteq \mathbb R^n,\ C(A^T)\subseteq\mathbb R^n N(A)⊆Rn, C(AT)⊆Rn, N ( A T ) ⊆ R m , C ( A ) ⊆ R m N(A^T)\subseteq \mathbb R^m,\ C(A)\subseteq \mathbb R^m N(AT)⊆Rm, C(A)⊆Rm
一个列满秩的矩阵
A
3
∗
2
A_{3*2}
A3∗2(
r
a
n
k
A
=
2
rank\ A=2
rank A=2)
秩为1的矩阵
A
3
∗
2
A_{3*2}
A3∗2
广义逆的含义
上一节得出了一个重要结论,矩阵 A A A描述了一个线性变换 T T T,如果将像空间限制在 C ( A ) C(A) C(A),原像空间限制在 C ( A T ) C(A^T) C(AT),那么 T T T是双射。双射意味着像空间和原像空间的所有元素间都存在这逐一对应关系,所以对于矩阵 A A A,我们总能找到矩阵 A + A^+ A+,其描述的线性变换可以使像空间 C ( A ) C(A) C(A)的元素映射回原像空间 C ( A T ) C(A^T) C(AT)。
从可逆矩阵的逆说起
只有可逆矩阵的逆才满足
A
A
−
1
=
A
−
1
A
=
I
AA^{-1}=A^{-1}A=I
AA−1=A−1A=I
此时
r
=
m
=
n
,
f
u
l
l
r
a
n
k
r=m=n,full\ rank
r=m=n,full rank
左逆
r
=
n
<
m
,
f
u
l
l
c
o
l
u
m
n
r
a
n
k
r=n<m,full\ column\ rank
r=n<m,full column rank,此时零空间
N
(
A
)
=
{
0
}
N(A)=\{0\}
N(A)={0}
在最小二乘法中知道,
A
T
A
A^TA
ATA满秩,所以存在
(
A
T
A
)
−
1
A
T
A
=
I
(A^TA)^{-1}A^TA=I
(ATA)−1ATA=I
其中
(
A
T
A
)
−
1
A
T
(A^TA)^{-1}A^T
(ATA)−1AT,被称为列满秩矩阵
A
A
A的左逆
A
l
e
f
t
n
∗
m
−
1
A
m
∗
n
=
I
n
∗
n
A_{left\ n*m}^{-1}A_{m*n}=I_{n*n}
Aleft n∗m−1Am∗n=In∗n
如果把列满秩的矩阵
A
A
A的左逆放在
A
A
A的右边
A
m
∗
n
A
l
e
f
t
n
∗
m
−
1
=
A
(
A
T
A
)
−
1
A
T
A_{m*n}A_{left\ n*m}^{-1}=A(A^TA)^{-1}A^T
Am∗nAleft n∗m−1=A(ATA)−1AT
为列空间投影矩阵
右逆
r
=
m
<
n
,
f
u
l
l
r
o
w
r
a
n
k
r=m<n,full\ row\ rank
r=m<n,full row rank,此时左零空间
N
(
A
T
)
=
{
0
}
N(A^T)=\{0\}
N(AT)={0}
此时
A
A
T
AA^T
AAT是可逆的
A
A
T
(
A
A
T
)
−
1
=
I
AA^T(AA^T)^{-1}=I
AAT(AAT)−1=I
其中
A
T
(
A
A
T
)
−
1
A^T(AA^T)^{-1}
AT(AAT)−1,被称为行满秩矩阵
A
A
A的右逆
A
m
∗
n
A
r
i
g
h
t
n
∗
m
−
1
=
I
m
∗
m
A_{m*n}A^{-1}_{right\ n*m}=I_{m*m}
Am∗nAright n∗m−1=Im∗m
如果把行满秩的矩阵
A
A
A的右逆放在
A
A
A的左边
A
r
i
g
h
t
n
∗
m
−
1
A
m
∗
n
=
A
T
(
A
A
T
)
−
1
A
A_{right\ n*m}^{-1}A_{m*n}=A^T(AA^T)^{-1}A
Aright n∗m−1Am∗n=AT(AAT)−1A
为行空间投影矩阵
伪逆
如果不保证行满秩也不保证列满秩
r
<
m
,
r
<
n
r<m,r<n
r<m,r<n,那么
A
A
T
AA^T
AAT和
A
T
A
A^TA
ATA都有可能是奇异的,那么这时候,左逆和右逆就都不存在。
伪逆是存在的,正如文章一开头所说,如果将像空间和原像空间限制在列空间和行空间,那么任意矩阵
A
A
A所代表的线性变换,都是可逆的
奇异值分解的进一步探讨
A
=
U
[
Σ
O
O
O
]
V
T
A=U \left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right] V^T
A=U[ΣOOO]VT
先来看
[
Σ
O
O
O
]
\left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right]
[ΣOOO]
如果它是方阵,其伪逆是将非零对角元全取倒数得到的对角阵
[
σ
1
σ
2
⋱
σ
r
0
⋱
0
]
[
1
/
σ
1
1
/
σ
2
⋱
1
/
σ
r
0
⋱
0
]
=
\left[ \begin{matrix} \sigma_1&&&&&&\\ &\sigma_2&&&&&\\ &&\ddots&&&&\\ &&&\sigma_r&&&\\ &&&&0&&\\ &&&&&\ddots&\\ &&&&&&0\\ \end{matrix} \right] \left[ \begin{matrix} 1/\sigma_1&&&&&&\\ &1/\sigma_2&&&&&\\ &&\ddots&&&&\\ &&&1/\sigma_r&&&\\ &&&&0&&\\ &&&&&\ddots&\\ &&&&&&0\\ \end{matrix} \right]=
⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡σ1σ2⋱σr0⋱0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡1/σ11/σ2⋱1/σr0⋱0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤=
[
1
1
⋱
1
0
⋱
0
]
\left[ \begin{matrix} 1&&&&&&\\ &1&&&&&\\ &&\ddots&&&&\\ &&&1&&&\\ &&&&0&&\\ &&&&&\ddots&\\ &&&&&&0\\ \end{matrix} \right]
⎣⎢⎢⎢⎢⎢⎢⎢⎢⎡11⋱10⋱0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎤
对于一般情况
[
I
r
∗
r
O
O
O
]
n
∗
n
=
[
Σ
−
1
O
O
O
]
n
∗
m
[
Σ
O
O
O
]
m
∗
n
\left[ \begin{matrix} I_{r*r}&O\\ O&O\\ \end{matrix} \right]_{n*n}= \left[ \begin{matrix} \Sigma^{-1}&O\\ O&O\\ \end{matrix} \right]_{n*m} \left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right]_{m*n}
[Ir∗rOOO]n∗n=[Σ−1OOO]n∗m[ΣOOO]m∗n
[
I
r
∗
r
O
O
O
]
m
∗
m
=
[
Σ
O
O
O
]
m
∗
n
[
Σ
−
1
O
O
O
]
n
∗
m
\left[ \begin{matrix} I_{r*r}&O\\ O&O\\ \end{matrix} \right]_{m*m}= \left[ \begin{matrix} \Sigma&O\\ O&O\\ \end{matrix} \right]_{m*n} \left[ \begin{matrix} \Sigma^{-1}&O\\ O&O\\ \end{matrix} \right]_{n*m}
[Ir∗rOOO]m∗m=[ΣOOO]m∗n[Σ−1OOO]n∗m
可见伪逆的左乘和右乘,得到的“单位矩阵”并不相同,左乘,得到的是向行空间的投影;右乘,得到的是向列空间的投影。
对于矩阵
A
A
A,记其伪逆为
A
+
A^+
A+
A
+
=
V
n
∗
n
[
Σ
−
1
O
O
O
]
n
∗
m
U
m
∗
m
A^+=V_{n*n} \left[ \begin{matrix} \Sigma^{-1}&O\\ O&O\\ \end{matrix} \right]_{n*m}U_{m*m}
A+=Vn∗n[Σ−1OOO]n∗mUm∗m
从线性变换的角度来看,伪逆代表了什么
已经知道
A
+
A
A^+A
A+A是行空间的单位投影矩阵,
A
A
+
AA^+
AA+是列空间的单位投影矩阵
现在有一个向量
v
∈
C
(
A
T
)
v\in C(A^T)
v∈C(AT),经过
A
A
A的线性变换后,只保留了
r
r
r维的信息,其余的
n
−
r
n-r
n−r维信息丢失了,被压缩成了零向量。
当
A
+
A^+
A+想要尽力找到
A
v
Av
Av的原像时,能做到的最多是把没有丢失的
r
r
r维信息进行恢复,被压缩成零向量的
n
−
r
n-r
n−r个维度已经无力回天。
A
A
+
AA^+
AA+也是同理,
A
A
A只能尽力恢复左乘
A
+
A^+
A+时还保留着的信息。