MIT 18.06 linear algebra lecture 16 投影矩阵和最小二乘 笔记

投影

上一节提到投影矩阵\(P=A(A^TA)^{-1}A^T\)能将\(\boldsymbol{b}\)投影到\(A\)的列空间上。如果\(\boldsymbol{b}\)垂直于列空间,则\(\boldsymbol{b}\)在左零空间\(N(A^T)\)中,并且\(P\boldsymbol{b}=\boldsymbol{0}\);如果\(\boldsymbol{b}\)在列空间中,则\(\boldsymbol{b}=A\boldsymbol{x}\),且\(P\boldsymbol{b}=\boldsymbol{b}\)

一般情况下,一个向量\(\boldsymbol{b}\)通常有一部分\(\boldsymbol{p}\)在列空间中,另一部分\(\boldsymbol{e}\)与列空间垂直(在左零空间中),\(\boldsymbol{b}\)的投影即是在列空间的那一部分\(\boldsymbol{p}\)
\(\boldsymbol{b}\)投影到左零空间\(N(A^T)\)的矩阵是\(I-P\)
\[ \begin{aligned} \boldsymbol{e}&=\boldsymbol{b}-\boldsymbol{p}\\ \boldsymbol{e}&=(I-P)\boldsymbol{b} \end{aligned} \]

最小二乘

929141-20181212233729565-668261760.png

接着上一节的内容,找到离点\((1,1)\)\((2,2)\)\((3,2)\)最近的直线\(b=C+Dt\)。通常称这个过程是线性回归(linear regression),当数据点没有异常点(outliers)的时候,该技术还是非常有效的。
最近的直线意味着,能够最小化点到直线距离的误差。通过将距离的平方加起来,换句话说,希望最小化\(\|A\boldsymbol{x}-\boldsymbol{b}\|=\|\boldsymbol{e}\|^2\)

如果直线通过三个点,有:
\[ \begin{aligned} C+D&=1\\ C+2D&=2\\ C+3D&=2 \end{aligned} \]
但是该方程组是无解的,等价于\(A\boldsymbol{x}=\boldsymbol{b}\),其中:
\[ A= \begin{bmatrix} 1&1\\ 1&2\\ 1&3 \end{bmatrix}, \boldsymbol{x}= \begin{bmatrix} C\\ D \end{bmatrix}\text{ and }\boldsymbol{b}= \begin{bmatrix} 1\\ 2\\ 2 \end{bmatrix} \]
可以从两种角度看待,在直线空间中\(e_1\)\(e_2\)\(e_3\)是数据点到直线的垂直距离,\(p_1\)\(p_2\)\(p_3\)\(C+Dt\)上靠近数据点的值:\(\boldsymbol{b}\approx \boldsymbol{p}\)
另一种角度,考虑到\(\boldsymbol{b}\)\(\mathbb{R}^3\)中,投影\(\boldsymbol{p}\)\(A\)的列空间中,投影\(\boldsymbol{e}\)\(N(A^T)\)中。
接下来求解\(\hat{\boldsymbol{x}}=\begin{bmatrix}\hat{C}\\\hat{D}\end{bmatrix}\)\(\boldsymbol{p}\),有:
\[ \begin{aligned} A^TA\hat{\boldsymbol{x}}&=A^T\boldsymbol{b}\\ \left[\begin{array}{rr} 3 & 6\\ 6 & 14 \end{array}\right] \left[\begin{array}{r} \hat{C}\\ \hat{D} \end{array}\right]&= \left[\begin{array}{r} 5\\ 11 \end{array}\right] \end{aligned} \]
通过这个能够得到正规方程(normal equation):
\[ \begin{aligned} 3\hat{C}+6\hat{D}&=5\\ 6\hat{C}+14\hat{D}&=11 \end{aligned} \]
通过求解正规方程得到解,\(\hat{D}=1/2\)\(\hat{C}=2/3\)
除了用线性代数的方法,也能通过使用微积分找到下面式子的最小值:
\[ e_1^2+e_2^2+e_3^2=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2 \]
最终找到的离数据点最近的直线是\(b=\frac{2}{3}+\frac{1}{2}t\)

\(i\)\(p_i\)\(e_i\)
\(1\)\(7/6\)\(-1/6\)
\(2\)\(5/3\)\(1/3\)
\(3\)\(13/6\)\(-1\)/6

或者\(\boldsymbol{p}=\left[\begin{array}{r}7/6\\5/3\\13/6\end{array}\right]\)\(\boldsymbol{e}=\left[\begin{array}{r}-1/6\\2/6\\-1/6\end{array}\right]\)。注意到\(\boldsymbol{p}\)\(\boldsymbol{e}\)是正交的,\(\boldsymbol{e}\)同样垂直于\(A\)的列。

矩阵\(A^TA\)

在上一节的计算过程中,假设了矩阵\(A^TA\)是可逆的,这个假设是否正确呢?接下来证明。

如果\(A\)的列是线性无关的,则\(A^TA\)是可逆的。

如果\(A^TA\boldsymbol{x}=\boldsymbol{0}\)仅在\(\boldsymbol{x}=\boldsymbol{0}\)时成立,则\(A^TA\)是可逆的:
\[ \begin{aligned} A^TA\boldsymbol{x}&=\boldsymbol{0}\\ \boldsymbol{x}^TA^TA\boldsymbol{x}&=\boldsymbol{x}^T\boldsymbol{0}\\ (A\boldsymbol{x})^T(A\boldsymbol{x})&=\boldsymbol{0}\\ A\boldsymbol{x}&=\boldsymbol{0} \end{aligned} \]
因为\(A\)的列是线性无关的,所以\(A\boldsymbol{x}=\boldsymbol{0}\)仅在\(\boldsymbol{x}=\boldsymbol{0}\)时成立。

只要\(A\)的列是线性无关的,可以利用线性回归去找到不可解的线性方程的近似解。当\(A\)的列是标准正交(orthonormal),也是线性无关的。标准正交意味着\(A\)的列是互相垂直的单位向量,如\(\left[\begin{array}{r}1\\0\\0\end{array}\right]\)\(\left[\begin{array}{r}0\\1\\0\end{array}\right]\)\(\left[\begin{array}{r}0\\0\\1\end{array}\right]\)或者\(\left[\begin{array}{r}\cos{\theta}\\\sin{\theta}\end{array}\right]\)\(\left[\begin{array}{r}-\sin{\theta}\\\cos{\theta}\end{array}\right]\)


笔记来源:MIT 18.06 lecture 16

转载于:https://www.cnblogs.com/yuyin/articles/10111712.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值