本讲的主要内容:
- 简单回顾前一讲中的投影矩阵的概念
- 结合例子具体说明最小二乘
- 证明 A T A A^{T}A ATA 是可逆的
回顾
上一讲的最重要的知识点如下:
- p = A x p= Ax p=Ax
- P = A ( A T A ) − 1 A T P=A(A^{T}A)^{-1}A^{T} P=A(ATA)−1AT
- A T A x = A T b A^{T}Ax=A^{T}b ATAx=ATb
首先定义 p p p 是向量投影在向量空间 A A A的分向量, P P P称为投影矩阵,作用是将某个向量投影到一个向量空间中,例如: P b Pb Pb 表示将 b b b 投影到 A A A 的列空间里,这里有几种特殊情况:
- b b b 在 C ( A ) C(A) C(A)里,则 P b = b Pb=b Pb=b
-
b
b
b 正交于
C
(
A
)
C(A)
C(A),则
P
b
=
0
Pb=0
Pb=0
这些是上一讲的知识,在本讲中主要是如何应用到最小二乘法中。
应用:最小二乘法
继续使用上一讲最后的例子,首先要对两张图有概念:
这张图中,两个正交的向量空间
C
(
A
)
C(A)
C(A) 和
N
(
A
T
)
N(A^{T})
N(AT) ,其中有一个向量
b
b
b不属于这两个空间,现在对这个向量向两个空间投影,分别得到
p
p
p和
e
e
e.
这也就是之前的例子了,有三个数据点(1,1),(2,2),(3,2),我们想要拟合出一条直线使得三个点到直线的距离最小,也就是最优,其中数据点投影到直线为
p
p
p,距离向量是
e
e
e。
接下来开始,
假设对这些数据点进行拟合的曲线为
y
=
C
+
D
t
y = C + Dt
y=C+Dt,其中根据原来的数据点的关系
A
x
=
b
Ax=b
Ax=b,可以写成:
(
1
1
1
2
1
3
)
(
C
D
)
=
(
1
2
3
)
\begin{pmatrix} 1 &1 \\ 1 &2 \\ 1 &3 \end{pmatrix}\begin{pmatrix} C\\ D \end{pmatrix}=\begin{pmatrix} 1\\ 2\\ 3 \end{pmatrix}
⎝⎛111123⎠⎞(CD)=⎝⎛123⎠⎞
要明确,这个时候方程是无解(因为数据点并不在直线上)我们的目标就是,最小化数据点到直线的距离,也就是:
∥
A
x
−
b
∥
2
=
∥
e
∥
2
\left \| Ax-b \right \|^{2} = \left \| e \right \|^{2}
∥Ax−b∥2=∥e∥2,这个式子也等价于:
∥
A
x
−
b
∥
2
=
∥
e
∥
2
⇔
e
1
2
+
e
2
2
+
e
3
2
⇔
(
C
+
D
−
1
)
2
+
(
C
+
2
D
−
2
)
2
+
(
C
+
3
D
−
2
)
2
\left \| Ax-b \right \|^{2} = \left \| e \right \|^{2}\Leftrightarrow e_{1}^{2} + e_{2}^{2} + e_{3}^{2}\Leftrightarrow (C+D-1)^{2} + (C+2D-2)^{2}+(C+3D-2)^{2}
∥Ax−b∥2=∥e∥2⇔e12+e22+e32⇔(C+D−1)2+(C+2D−2)2+(C+3D−2)2
(其中第二个是相当于第二个图中距离向量的关系,第三个则是将(1,1)等数据点代入得到)
我们的目的是解出
C
C
C 和
D
D
D 以及投影后的向量
P
P
P,根据由之前的讲到的关于最小二乘的方程(也就是投影):
A
T
A
x
^
=
A
T
b
A^{T}A\hat{x} = A^{T}b
ATAx^=ATb
代入三个数据点得到:
(
3
6
6
14
)
(
C
D
)
=
(
5
11
)
\begin{pmatrix} 3 &6 \\ 6 &14 \end{pmatrix} \begin{pmatrix} C\\ D \end{pmatrix}= \begin{pmatrix} 5\\ 11 \end{pmatrix}
(36614)(CD)=(511)
接下来消元解方程得到:
C
=
1
/
2
C=1/2
C=1/2,
D
=
2
/
3
D=2/3
D=2/3 表示求得的最优方程是:
y
=
2
/
3
+
1
/
2
t
y=2/3 + 1/2t
y=2/3+1/2t
得到了这个方程,那我们就可以得到所有的量了,
首先将三个数据点代入最优方程,可得到投影
P
=
(
7
/
6
5
/
3
13
/
6
)
P=\begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}
P=⎝⎛7/65/313/6⎠⎞根据
P
P
P和
b
b
b可以计算出误差
e
=
(
1
/
6
−
2
/
6
1
/
6
)
e=\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix}
e=⎝⎛1/6−2/61/6⎠⎞它们之间的关系有:
b
=
p
+
e
,
即
:
(
1
2
2
)
=
(
7
/
6
5
/
3
13
/
6
)
+
(
1
/
6
−
2
/
6
1
/
6
)
b = p+e,即:\begin{pmatrix} 1\\ 2\\ 2 \end{pmatrix}= \begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}+\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix}
b=p+e,即:⎝⎛122⎠⎞=⎝⎛7/65/313/6⎠⎞+⎝⎛1/6−2/61/6⎠⎞
这一部分的推导过程真的好难表示啊。。但是还是那样,只要写一写过程,就会很容易理解了。
证明 A T A A^{T}A ATA可逆
如果命题成立,则看这个方程:
A
T
A
x
=
0
A^{T}Ax=0
ATAx=0,显然是只有零解的(可逆也就是满秩,所以没有自由向量,只有零解)
首先将方程两侧都乘
X
T
X^{T}
XT:
x
T
A
T
A
x
=
0
x^{T}A^{T}Ax=0
xTATAx=0
根据转置的规则,等价于:
(
A
x
)
T
(
A
x
)
=
0
(Ax)^{T}(Ax)=0
(Ax)T(Ax)=0
这种形式是与向量长度的形式是一致的,注意这个地方是向量(
A
x
=
b
Ax=b
Ax=b,
b
b
b是列向量),所以可以继续得出下面的结论
A
x
=
0
Ax=0
Ax=0
因为
A
A
A是列向量无关的,所以:
x
=
0
x=0
x=0
得证。
标准正交向量
这里提及了一点接下来的内容,如果我们得到一组相互垂直的单位向量,比如:三维坐标的(1,0,0),(0,1,0)和(0,0,1),或者二维平面中的 ( − s i n θ , c o s θ ) (-sin\theta,cos\theta) (−sinθ,cosθ) 和 ( c o s θ , s i n θ ) (cos\theta,sin\theta) (cosθ,sinθ)。都称为 标准正交向量
这一部分的内容比较乱,很容易把人绕晕,多推导几遍就好了。
以上~