1. 投影矩阵
1. 向量投影
假设我们有两个向量 a , b a,b a,b,如图所示:
- 定义向量b在向量a上的投影向量为p,定义向量p与a的大小关系为p=Xa,X为标量,依图垂直可以得到如下关系:
e = b − p ; a T ( b − X a ) = 0 (1) e=b-p;a^T(b-Xa)=0\tag{1} e=b−p;aT(b−Xa)=0(1) -
a
T
a
,
X
a^Ta,X
aTa,X为标量,可以整理可得:
a T b − a T X a = 0 ⇒ a T b = X a T a ⇒ X = a T b a T a (2) a^Tb-a^TXa=0 \Rightarrow a^Tb=Xa^Ta\Rightarrow X=\frac{a^Tb}{a^Ta}\tag{2} aTb−aTXa=0⇒aTb=XaTa⇒X=aTaaTb(2) - X为标量,可以任意换位置
p = X a = a X = a a T b a T a = a a T a T a b (3) p=Xa=aX=a\frac{a^Tb}{a^Ta}=\frac{aa^T}{a^Ta}b\tag{3} p=Xa=aX=aaTaaTb=aTaaaTb(3)
- 根据上面矩阵,我们定义投影矩阵P表示如下:
P = a a T a T a ; p = P b (4) P=\frac{aa^T}{a^Ta};p=Pb\tag{4} P=aTaaaT;p=Pb(4) - 当我们将b变成2b时,可以得到如下关系:
p ′ = P 2 b = 2 P b = 2 p ′ ; (5) p'=P2b=2Pb=2p';\tag{5} p′=P2b=2Pb=2p′;(5) - 当我们将a变成2a时,可以得到如下关系:
p ′ ′ = 2 a 2 a T 2 a T 2 a = a a T a T a = P (6) p''=\frac{2a2a^T}{2a^T2a}=\frac{aa^T}{a^Ta}=P\tag{6} p′′=2aT2a2a2aT=aTaaaT=P(6) - 对于投影矩阵P来说,我们发现投影矩阵的秩为1,也就是说任意向量b左乘投影矩阵P,均可得到向量b在向量a上的投影矩阵,并且向量p与向量b之间是线性关系,并且与a的线性变化无关。
- 投影矩阵P的关系:
P 2 = a a T a T a a a T a T a = a T a a a T a T a a T a = a a T a T a = P ; P T = P (7) P^2=\frac{aa^T}{a^Ta}\frac{aa^T}{a^Ta}=\frac{a^Taa a^T}{a^Taa^Ta}=\frac{aa^T}{a^Ta}=P;P^T=P\tag{7} P2=aTaaaTaTaaaT=aTaaTaaTaaaT=aTaaaT=P;PT=P(7)
2. 投影矩阵与方程的解
为什么我们需要向量的投影?因为对于我们来说,我们会发现
A
X
=
b
AX=b
AX=b可能没有解,也就是说,从矩阵A的列空间上AX来看,左乘行变换,右乘列变换,所以一般来说,AX的组合生成的向量是在矩阵A的列空间中,如果我们给出的向量b不在A的列空间中,那么就不会有解,但是我们有想要找到一个在A的列空间的向量近似的解
X
^
\hat{X}
X^,使得满足如下情况:
A
X
^
≈
b
(8)
A\hat{X}\approx b\tag{8}
AX^≈b(8)
- 我们定义矩阵A的列向量为
a
1
,
a
2
a_1,a_2
a1,a2,定义解系数为
x
1
,
x
2
x_1,x_2
x1,x2,题目要求的是AX=b
x 1 a 1 + x 2 a 2 = b (10) x_1a_1+x_2a_2=b\tag{10} x1a1+x2a2=b(10)
- 如图所示,我们一开始发现向量b 不在矩阵A的列空间中,现在我们需要先将向量b投影到矩阵A的列空间中。那么就一定能够得到一组解X,满足方程,但是只能得到如下等式:
A X ^ = p (11) A\hat{X}=p\tag{11} AX^=p(11) - 定义向量e=b-p;
e = b − p (12) e=b-p\tag{12} e=b−p(12) - 我们知道向量e垂直于A的列空间,所以可以得到如下结果:
a 1 T ( b − p ) = 0 ; a 2 T ( b − p ) = 0 ; … ; a n T ( b − p ) = 0 ; a_1^T(b-p)=0;a_2^T(b-p)=0;\dots;a_n^T(b-p)=0; a1T(b−p)=0;a2T(b−p)=0;…;anT(b−p)=0;
p = A X ^ (13) p=A\hat{X}\tag{13} p=AX^(13) - 将上述方程变成矩阵形式如下:
[ a 1 T a 2 T ⋮ a n T ] ( b − A X ^ ) = 0 (14) \begin{bmatrix}a_1^T\\\\a_2^T\\\\\vdots\\\\a_n^T\end{bmatrix}(b-A\hat{X})=0\tag{14} a1Ta2T⋮anT (b−AX^)=0(14)
A = [ a 1 a 2 … a n ] ; A T = [ a 1 T a 2 T ⋮ a n T ] ; A=\begin{bmatrix}a_1&a_2&\dots&a_n\end{bmatrix};A^T=\begin{bmatrix}a_1^T\\\\a_2^T\\\\\vdots\\\\a_n^T\end{bmatrix}; A=[a1a2…an];AT= a1Ta2T⋮anT ; - 将
A
T
A^T
AT代入可得:
A T ( b − A X ^ ) = 0 (15) A^T(b-A\hat{X})=0\tag{15} AT(b−AX^)=0(15) - 整理可得:
A T A X ^ = A T b (16) A^TA\hat{X}=A^Tb\tag{16} ATAX^=ATb(16)
是不是跟最小二乘法的方程一样,这个就是最小二乘法的向量图像解释。 - 当矩阵
A
T
A
A^TA
ATA可逆,那么方程的解表示如下:
X ^ = ( A T A ) − 1 A T b (17) \hat{X}=(A^TA)^{-1}A^Tb\tag{17} X^=(ATA)−1ATb(17)
p = A X ^ = A ( A T A ) − 1 A T b (18) p=A\hat{X}=A(A^TA)^{-1}A^Tb\tag{18} p=AX^=A(ATA)−1ATb(18) - 投影矩阵P表示如下:
P = A ( A T A ) − 1 A T (19) P=A(A^TA)^{-1}A^T\tag{19} P=A(ATA)−1AT(19)
3. 线性回归
假设有三个点,A(1,1),B(2,1),C(3,2),我们需要拟合一条直线,使得三个点离直线的距离最短。
- 方程角度
定义直线的方程表示如下:
Y = C X + D (20) Y=CX+D\tag{20} Y=CX+D(20)
将方程代入可得如下:
C + D = 1 ; 2 C + D = 1 ; 3 C + D = 2 (21) C+D=1;2C+D=1;3C+D=2\tag{21} C+D=1;2C+D=1;3C+D=2(21) - 矩阵表示如下:
[ 1 1 2 1 3 1 ] [ C D ] = [ 1 1 2 ] ⇒ A X = b (22) \begin{bmatrix}1&1\\\\2&1\\\\3&1\end{bmatrix}\begin{bmatrix}C\\\\D\end{bmatrix}=\begin{bmatrix}1\\\\1\\\\2\end{bmatrix}\Rightarrow AX=b\tag{22} 123111 CD = 112 ⇒AX=b(22)
这个方程是无解的,所以我们只能找到近似的解。最小二乘法的线性回归问题就和投影矩阵问题一样了。