高维空间中的投影矩阵
假设向量
b
=
(
b
(
1
)
,
b
(
2
)
,
.
.
.
,
b
(
n
)
)
T
∈
R
n
\boldsymbol{b}=(b^{(1)},b^{(2)},...,b^{(n)})^\mathrm{T} \in R^n
b=(b(1),b(2),...,b(n))T∈Rn,投影到一个
m
m
m维的超平面
M
M
M中,得到向量
a
=
(
a
(
1
)
,
a
(
2
)
,
.
.
.
,
a
(
n
)
)
T
\boldsymbol{a}=(a^{(1)},a^{(2)},...,a^{(n)})^\mathrm{T}
a=(a(1),a(2),...,a(n))T
首先,
a
\boldsymbol{a}
a可分解为
M
M
M中一组基向量
a
1
,
a
2
,
.
.
.
,
a
m
\boldsymbol{a}_1,\boldsymbol{a}_2,...,\boldsymbol{a}_m
a1,a2,...,am(其中
a
i
=
(
a
i
(
1
)
,
a
i
(
2
)
,
.
.
.
,
a
i
(
n
)
)
T
,
i
=
1
,
2
,
.
.
.
m
\boldsymbol{a}_i=(a_i^{(1)},a_i^{(2)},...,a_i^{(n)})^\mathrm{T},i=1,2,...m
ai=(ai(1),ai(2),...,ai(n))T,i=1,2,...m)的线性组合,即
a
=
x
1
a
1
+
x
2
a
2
+
.
.
.
+
x
m
a
m
\boldsymbol{a}=x_1\boldsymbol{a}_1+x_2\boldsymbol{a}_2+...+x_m\boldsymbol{a}_m
a=x1a1+x2a2+...+xmam
这里
x
1
,
.
.
.
,
x
m
x_1,...,x_m
x1,...,xm是每个基向量的系数
也可以表示成矩阵形式
a
=
A
x
\boldsymbol{a}=A\boldsymbol{x}
a=Ax
其中
A
=
[
a
1
,
a
2
,
.
.
.
,
a
m
]
A=[\boldsymbol{a}_1,\boldsymbol{a}_2,...,\boldsymbol{a}_m]
A=[a1,a2,...,am]是一个
n
×
m
n\times m
n×m的矩阵,
x
=
[
x
1
,
x
2
,
.
.
.
,
x
m
]
T
\boldsymbol{x}=[x_1,x_2,...,x_m]^\mathrm{T}
x=[x1,x2,...,xm]T为系数向量
另一方面,根据投影的性质,向量
(
b
−
a
)
∈
M
⊥
(\boldsymbol{b}-\boldsymbol{a})\in M^{\perp}
(b−a)∈M⊥,也就是说向量
b
−
a
=
b
−
A
x
\boldsymbol{b}-\boldsymbol{a}=\boldsymbol{b}-A\boldsymbol{x}
b−a=b−Ax与任意一个
M
M
M中的基向量
a
i
\boldsymbol{a}_i
ai垂直,那么
a
i
⋅
(
b
−
A
x
)
=
a
i
T
(
b
−
A
x
)
=
0
\boldsymbol{a}_i\cdot(\boldsymbol{b}-A\boldsymbol{x})=\boldsymbol{a}_i^\mathrm{T}(\boldsymbol{b}-A\boldsymbol{x})=0
ai⋅(b−Ax)=aiT(b−Ax)=0其中
i
=
1
,
2
,
.
.
.
,
m
i=1,2,...,m
i=1,2,...,m,将这
m
m
m个式子合并成矩阵形式
A
T
(
b
−
A
x
)
=
0
A^\mathrm{T}(\boldsymbol{b}-A\boldsymbol{x})=\boldsymbol{0}
AT(b−Ax)=0可求得
x
=
(
A
T
A
)
−
1
A
T
b
\boldsymbol{x}=(A^\mathrm{T}A)^{-1}A^\mathrm{T}\boldsymbol{b}
x=(ATA)−1ATb这里,
A
A
A的列向量为
M
M
M的基向量,所以线性无关,可推出
A
T
A
A^\mathrm{T}A
ATA可逆。
那么
b
\boldsymbol{b}
b投影到
M
M
M中的向量
a
=
A
x
=
A
(
A
T
A
)
−
1
A
T
b
\boldsymbol{a}=A\boldsymbol{x}=A(A^\mathrm{T}A)^{-1}A^\mathrm{T}\boldsymbol{b}
a=Ax=A(ATA)−1ATb可得到投影矩阵
P
=
A
(
A
T
A
)
−
1
A
T
P=A(A^\mathrm{T}A)^{-1}A^\mathrm{T}
P=A(ATA)−1AT
这里的
A
A
A为投影超平面中基向量(列向量)的组合。
可以轻松得到投影矩阵的一些性质:
(1)对称性:
P
=
P
T
P=P^\mathrm{T}
P=PT
(2)幂等性:
P
2
=
P
P^2=P
P2=P
(3)秩:
r
a
n
k
(
P
)
=
m
rank(P)=m
rank(P)=m
投影矩阵的形式很容易联想到线性回归的解, w = ( X T X ) − 1 X T y \boldsymbol{w}=(X^\mathrm{T}X)^{-1}X^\mathrm{T}\boldsymbol y w=(XTX)−1XTy y ^ = X w = X ( X T X ) − 1 X T y \boldsymbol{\hat{y}}=X\boldsymbol{w}=X(X^\mathrm{T}X)^{-1}X^\mathrm{T}\boldsymbol y y^=Xw=X(XTX)−1XTy也就是说线性回归求解的过程就是输出向量投影到输入向量所张成的超平面的过程。