MIT 线性代数导论 第十六讲:投影矩阵和最小二乘

本讲的主要内容:

  • 简单回顾前一讲中的投影矩阵的概念
  • 结合例子具体说明最小二乘
  • 证明 A T A A^{T}A ATA 是可逆的

回顾

上一讲的最重要的知识点如下:

  • p = A x p= Ax p=Ax
  • P = A ( A T A ) − 1 A T P=A(A^{T}A)^{-1}A^{T} P=A(ATA)1AT
  • A T A x = A T b A^{T}Ax=A^{T}b ATAx=ATb

首先定义 p p p 是向量投影在向量空间 A A A的分向量, P P P称为投影矩阵,作用是将某个向量投影到一个向量空间中,例如: P b Pb Pb 表示将 b b b 投影到 A A A 的列空间里,这里有几种特殊情况:

  • b b b C ( A ) C(A) C(A)里,则 P b = b Pb=b Pb=b
  • b b b 正交于 C ( A ) C(A) C(A),则 P b = 0 Pb=0 Pb=0
    这些是上一讲的知识,在本讲中主要是如何应用到最小二乘法中。

应用:最小二乘法

继续使用上一讲最后的例子,首先要对两张图有概念:

这张图中,两个正交的向量空间 C ( A ) C(A) C(A) N ( A T ) N(A^{T}) N(AT) ,其中有一个向量 b b b不属于这两个空间,现在对这个向量向两个空间投影,分别得到 p p p e e e.

这也就是之前的例子了,有三个数据点(1,1),(2,2),(3,2),我们想要拟合出一条直线使得三个点到直线的距离最小,也就是最优,其中数据点投影到直线为 p p p,距离向量是 e e e

接下来开始,
假设对这些数据点进行拟合的曲线为 y = C + D t y = C + Dt y=C+Dt,其中根据原来的数据点的关系 A x = b Ax=b Ax=b,可以写成:
( 1 1 1 2 1 3 ) ( C D ) = ( 1 2 3 ) \begin{pmatrix} 1 &1 \\ 1 &2 \\ 1 &3 \end{pmatrix}\begin{pmatrix} C\\ D \end{pmatrix}=\begin{pmatrix} 1\\ 2\\ 3 \end{pmatrix} 111123(CD)=123
要明确,这个时候方程是无解(因为数据点并不在直线上)我们的目标就是,最小化数据点到直线的距离,也就是: ∥ A x − b ∥ 2 = ∥ e ∥ 2 \left \| Ax-b \right \|^{2} = \left \| e \right \|^{2} Axb2=e2,这个式子也等价于:
∥ A x − b ∥ 2 = ∥ e ∥ 2 ⇔ e 1 2 + e 2 2 + e 3 2 ⇔ ( C + D − 1 ) 2 + ( C + 2 D − 2 ) 2 + ( C + 3 D − 2 ) 2 \left \| Ax-b \right \|^{2} = \left \| e \right \|^{2}\Leftrightarrow e_{1}^{2} + e_{2}^{2} + e_{3}^{2}\Leftrightarrow (C+D-1)^{2} + (C+2D-2)^{2}+(C+3D-2)^{2} Axb2=e2e12+e22+e32(C+D1)2+(C+2D2)2+(C+3D2)2
(其中第二个是相当于第二个图中距离向量的关系,第三个则是将(1,1)等数据点代入得到)

我们的目的是解出 C C C D D D 以及投影后的向量 P P P,根据由之前的讲到的关于最小二乘的方程(也就是投影):
A T A x ^ = A T b A^{T}A\hat{x} = A^{T}b ATAx^=ATb
代入三个数据点得到:
( 3 6 6 14 ) ( C D ) = ( 5 11 ) \begin{pmatrix} 3 &6 \\ 6 &14 \end{pmatrix} \begin{pmatrix} C\\ D \end{pmatrix}= \begin{pmatrix} 5\\ 11 \end{pmatrix} (36614)(CD)=(511)
接下来消元解方程得到: C = 1 / 2 C=1/2 C=1/2 D = 2 / 3 D=2/3 D=2/3 表示求得的最优方程是: y = 2 / 3 + 1 / 2 t y=2/3 + 1/2t y=2/3+1/2t
得到了这个方程,那我们就可以得到所有的量了,
首先将三个数据点代入最优方程,可得到投影 P = ( 7 / 6 5 / 3 13 / 6 ) P=\begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix} P=7/65/313/6根据 P P P b b b可以计算出误差 e = ( 1 / 6 − 2 / 6 1 / 6 ) e=\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix} e=1/62/61/6它们之间的关系有:
b = p + e , 即 : ( 1 2 2 ) = ( 7 / 6 5 / 3 13 / 6 ) + ( 1 / 6 − 2 / 6 1 / 6 ) b = p+e,即:\begin{pmatrix} 1\\ 2\\ 2 \end{pmatrix}= \begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}+\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix} b=p+e,122=7/65/313/6+1/62/61/6
这一部分的推导过程真的好难表示啊。。但是还是那样,只要写一写过程,就会很容易理解了。

证明 A T A A^{T}A ATA可逆

如果命题成立,则看这个方程: A T A x = 0 A^{T}Ax=0 ATAx=0,显然是只有零解的(可逆也就是满秩,所以没有自由向量,只有零解)
首先将方程两侧都乘 X T X^{T} XT:
x T A T A x = 0 x^{T}A^{T}Ax=0 xTATAx=0
根据转置的规则,等价于:
( A x ) T ( A x ) = 0 (Ax)^{T}(Ax)=0 (Ax)T(Ax)=0
这种形式是与向量长度的形式是一致的,注意这个地方是向量( A x = b Ax=b Ax=b b b b是列向量),所以可以继续得出下面的结论
A x = 0 Ax=0 Ax=0
因为 A A A是列向量无关的,所以:
x = 0 x=0 x=0
得证。

标准正交向量

这里提及了一点接下来的内容,如果我们得到一组相互垂直的单位向量,比如:三维坐标的(1,0,0),(0,1,0)和(0,0,1),或者二维平面中的 ( − s i n θ , c o s θ ) (-sin\theta,cos\theta) (sinθ,cosθ) ( c o s θ , s i n θ ) (cos\theta,sin\theta) (cosθ,sinθ)。都称为 标准正交向量

这一部分的内容比较乱,很容易把人绕晕,多推导几遍就好了。

以上~

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值