MIT 线性代数导论第十六讲：投影矩阵和最小二乘

最新推荐文章于 2023-05-09 11:50:23 发布

MirrorN

最新推荐文章于 2023-05-09 11:50:23 发布

阅读量832

点赞数

分类专栏： Linear Algebra 文章标签：线性代数

本文链接：https://blog.csdn.net/sinat_34328764/article/details/83056100

版权

Linear Algebra 专栏收录该内容

21 篇文章 14 订阅

订阅专栏

本讲的主要内容：

简单回顾前一讲中的投影矩阵的概念
结合例子具体说明最小二乘
证明 $A^{T}A$ 是可逆的

回顾

上一讲的最重要的知识点如下：

$p = A x$
$P=A(A^{T}A)^{-1}A^{T}$
$A^{T}Ax=A^{T}b$

首先定义 $p$ 是向量投影在向量空间 $A$ 的分向量， $P$ 称为投影矩阵，作用是将某个向量投影到一个向量空间中，例如： $P b$ 表示将 $b$ 投影到 $A$ 的列空间里，这里有几种特殊情况：

$b$ 在 $C (A)$ 里，则 $P b = b$
$b$ 正交于 $C (A)$ ，则 $P b = 0$
这些是上一讲的知识，在本讲中主要是如何应用到最小二乘法中。

应用：最小二乘法

继续使用上一讲最后的例子，首先要对两张图有概念：

这张图中，两个正交的向量空间 $C (A)$ 和 $N(A^{T})$ ，其中有一个向量 $b$ 不属于这两个空间，现在对这个向量向两个空间投影，分别得到 $p$ 和 $e$ .

这也就是之前的例子了，有三个数据点（1，1），（2，2），（3，2），我们想要拟合出一条直线使得三个点到直线的距离最小，也就是最优，其中数据点投影到直线为 $p$ ，距离向量是 $e$ 。

接下来开始，
假设对这些数据点进行拟合的曲线为 $y = C + D t$ ，其中根据原来的数据点的关系 $A x = b$ ，可以写成：
$\begin{pmatrix} 1 &1 \\ 1 &2 \\ 1 &3 \end{pmatrix}\begin{pmatrix} C\\ D \end{pmatrix}=\begin{pmatrix} 1\\ 2\\ 3 \end{pmatrix}$
要明确，这个时候方程是无解（因为数据点并不在直线上）我们的目标就是，最小化数据点到直线的距离，也就是： $\left \| Ax-b \right \|^{2} = \left \| e \right \|^{2}$ ，这个式子也等价于：
$\left \| Ax-b \right \|^{2} = \left \| e \right \|^{2}\Leftrightarrow e_{1}^{2} + e_{2}^{2} + e_{3}^{2}\Leftrightarrow (C+D-1)^{2} + (C+2D-2)^{2}+(C+3D-2)^{2}$
（其中第二个是相当于第二个图中距离向量的关系，第三个则是将(1,1)等数据点代入得到）

我们的目的是解出 $C$ 和 $D$ 以及投影后的向量 $P$ ，根据由之前的讲到的关于最小二乘的方程（也就是投影）：
$A^{T}A\hat{x} = A^{T}b$
代入三个数据点得到：
$\begin{pmatrix} 3 &6 \\ 6 &14 \end{pmatrix} \begin{pmatrix} C\\ D \end{pmatrix}= \begin{pmatrix} 5\\ 11 \end{pmatrix}$
接下来消元解方程得到： $C = 1 / 2$ ， $D = 2 / 3$ 表示求得的最优方程是： $y = 2 / 3 + 1 / 2 t$
得到了这个方程，那我们就可以得到所有的量了，
首先将三个数据点代入最优方程，可得到投影 $P=\begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}$ 根据 $P$ 和 $b$ 可以计算出误差 $e=\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix}$ 它们之间的关系有：
$p+e,即：\begin{pmatrix} 1\\ 2\\ 2 \end{pmatrix}= \begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}+\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix}$
这一部分的推导过程真的好难表示啊。。但是还是那样，只要写一写过程，就会很容易理解了。

证明 $A^{T}A$ 可逆

如果命题成立，则看这个方程： $A^{T}Ax=0$ ，显然是只有零解的（可逆也就是满秩，所以没有自由向量，只有零解）
首先将方程两侧都乘 $X^{T}$ :
$x^{T}A^{T}Ax=0$
根据转置的规则，等价于：
$Ax)^{T}(Ax)=0$
这种形式是与向量长度的形式是一致的，注意这个地方是向量（ $A x = b$ ， $b$ 是列向量），所以可以继续得出下面的结论
$A x = 0$
因为 $A$ 是列向量无关的，所以：
$x = 0$
得证。

标准正交向量

这里提及了一点接下来的内容，如果我们得到一组相互垂直的单位向量，比如：三维坐标的（1，0，0），（0，1，0）和（0，0，1），或者二维平面中的 $(-sin\theta,cos\theta)$ 和 $(cos\theta,sin\theta)$ 。都称为标准正交向量

这一部分的内容比较乱，很容易把人绕晕，多推导几遍就好了。

以上~

MirrorN

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
MIT 线性代数导论第十六讲：投影矩阵和最小二乘

本讲的主要内容：简单回顾前一讲中的投影矩阵的概念结合例子具体说明最小二乘证明 ATAA^{T}AATA 是可逆的回顾上一讲的最重要的知识点如下：p=Axp= Axp=AxP=A(ATA)−1ATP=A(A^{T}A)^{-1}A^{T}P=A(ATA)−1ATATAx=ATbA^{T}Ax=A^{T}bATAx=ATb首先定义ppp 是向量投影在向量空间AAA的分向量，P...
复制链接

扫一扫