4.2 投影

最新推荐文章于 2024-09-01 12:13:00 发布

passxgx

最新推荐文章于 2024-09-01 12:13:00 发布

阅读量1.1k

点赞数 18

分类专栏： # 第4章正交文章标签：线性代数

本文链接：https://blog.csdn.net/passxgx/article/details/140069213

版权

第4章正交专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、投影和投影矩阵

我们以下面两个问题开始，问题一是为了展示投影是很容易视觉化的，问题二是关于 “投影矩阵”（projection matrices）—— 对称矩阵且 $P^2=P$ 。 $\boldsymbol b$ 的投影是 $P\boldsymbol b$ 。

$\boldsymbol b=(2,3,4 )$ 在 $z$ 轴和 $x y$ 平面的投影是什么？
什么样的矩阵 $P_1$ 和 $P_2$ 可以产生这条直线和平面上的投影？
当 $\boldsymbol b$ 投影到一条直线上时，它的投影 $\boldsymbol p$ 是沿着这条直线的一部分。如果 $\boldsymbol b$ 投影到一个平面， $\boldsymbol p$ 是这条平面的一部分。投影 $\boldsymbol p$ 就是 $P\boldsymbol b$ 。
投影矩阵 $P$ 乘 $\boldsymbol b$ 得到 $\boldsymbol p$ 。这一节就是找到 $\boldsymbol p$ 和 $P$ 。

我们将 $z$ 轴上的投影称为 $\boldsymbol p_1$ 。第二个投影是垂直下降到 $x y$ 平面的，图像如 Figure 4.5 所示。从 $\boldsymbol b=(2,3,4)$ 开始，横向的投影 $\boldsymbol p_1=(0,0,4)$ ，竖直的投影 $\boldsymbol p_2=(2,3,0)$ ，它们分别是 $\boldsymbol b$ 沿着 $z$ 轴和在 $x y$ 平面的部分。
在这里插入图片描述

投影矩阵 $P_1$ 和 $P_2$ 都是 $3\times3$ 的矩阵，它们乘上 $\boldsymbol b$ 的 $3$ 个分量可以得到投影 $\boldsymbol p$ （也有 $3$ 个分量）。投影到一条直线上的矩阵是秩一矩阵，投影到一个平面上的矩阵是秩二矩阵： $\pmb{投影矩阵}\kern 10pt到\,z\,轴\kern 5ptP_1=\begin{bmatrix}0&0&0\\0&0&0\\0&0&\pmb1\end{bmatrix}\kern 10pt到\,xy\,平面\kern 5ptP_2=\begin{bmatrix}\pmb1&0&0\\0&\pmb1&0\\0&0&0\end{bmatrix}$ $P_1$ 筛选出每个向量的 $z$ 轴分量， $P_2$ 筛选出 $x$ 和 $y$ 分量。为了求出 $\boldsymbol b$ 的投影 $\boldsymbol p_1$ 和 $\boldsymbol p_2$ ，将 $P_2$ 和 $P_2$ 分别乘上 $\boldsymbol b$ （小写的 $\boldsymbol p$ 是向量，大写的 $P$ 是产生投影向量的矩阵）： $\boldsymbol p_1=P_1\boldsymbol b=\begin{bmatrix}0&0&0\\0&0&0\\0&0&1\end{bmatrix}\begin{bmatrix}x\\y\\z\end{bmatrix}=\begin{bmatrix}\pmb0\\\pmb0\\\pmb z\end{bmatrix}\kern 10pt\boldsymbol p_2=P_2\boldsymbol b=\begin{bmatrix}1&0&0\\0&1&0\\0&0&0\end{bmatrix}\begin{bmatrix}x\\y\\z\end{bmatrix}=\begin{bmatrix}\pmb x\\\pmb y\\\pmb0\end{bmatrix}$ 这种情况下的投影 $\boldsymbol p_1$ 和 $\boldsymbol p_2$ 是垂直的， $x y$ 平面和 $z$ 轴是正交子空间，就像房间的地板和两面墙的交线一样。
它们不仅仅是正交的子空间，这条直线和平面嗨还是正交补，它们的维度相加是 $1 + 2 = 3$ 。整个空间的任意向量 $\boldsymbol b$ 都是这两个子空间部分的和，投影 $\boldsymbol p_1$ 和 $\boldsymbol p_2$ 就是 $\boldsymbol b$ 的这两个部分： $向量得到\,\boldsymbol p_1+\boldsymbol p_2=\boldsymbol b\kern 10pt矩阵得到\,P_1+P_2=I\kern 15pt(4.2.1)$ 这很完美，对于这个例子，我们的目标达到了。对于任意直线、任意平面和任意的 $n$ 维子空间，我们有相同的目标，就是寻找在每个子空间的部分 $\boldsymbol p$ ，还有可以得到这个 $\boldsymbol p$ 的矩阵 $P$ ，即 $\boldsymbol p=P\boldsymbol b$ 。 $Rm \pmb{\textrm R}^m$ 的每个子空间都有自己的 $m\times m$ 投影矩阵。为了计算 $P$ ，我们需要一个好的可以描述投影到的目标子空间。
子空间的最好的描述就是基，将基向量放到 $A$ 的列，现在我们投影到 $A$ 的列空间！ $z$ 轴就是 $3\times1$ 矩阵 $A_1$ 的列空间， $x y$ 平面就是 $A_2$ 的列空间，这个平面同样也是 $A_3$ 的列空间（一个子空间有很多组基），所以 $\boldsymbol p_2=\boldsymbol p_3$ ， $P_2=P_3$ 。 $A_1=\begin{bmatrix}0\\0\\1\end{bmatrix},\kern 5ptA_2=\begin{bmatrix}1&0\\0&1\\0&0\end{bmatrix},\kern 5ptA_3=\begin{bmatrix}1&2\\2&3\\0&0\end{bmatrix}$ 我们的问题是把任意的 $\boldsymbol b$ 投影到任意的 $m\times n$ 矩阵的列空间中。从一条直线开始（维度为 $n = 1$ ）。矩阵 $A$ 只有一列，称为 $\boldsymbol a$ 。

二、投影到一条直线

一条过原点的直线方向是 $\boldsymbol a=(a_1,a_2,\cdots,a_m)$ ，我们要找到沿着这条直线的一点 $\boldsymbol p$ ，它离 $\boldsymbol b=(b_1,b_2,\cdots,b_m)$ 最近。投影的关键是正交：从 $\boldsymbol b$ 到 $\boldsymbol p$ 的直线与向量 $\boldsymbol a$ 垂直，就是 Figure 4.6左侧标识 $\boldsymbol e=\boldsymbol b-\boldsymbol p$ 的点线，它代表误差。现在我们使用代数计算 $\boldsymbol p$ 。
在这里插入图片描述
投影 $\boldsymbol p$ 会是 $\boldsymbol a$ 的某个倍数，记为 $\boldsymbol p=\hat x\boldsymbol a$ 读作 “ $x\,\,\textrm{hat}$ ” 乘 $\boldsymbol a$ 。通过计算 $\hat x$ 我们可以得到向量 $\boldsymbol p$ ，然后根据 $\boldsymbol p$ 的公式可以得到投影矩阵 $P$ 。这三步可以求出所有的投影矩阵：求 $\hat x$ ；然后求向量 $\boldsymbol p$ ；再求出矩阵 $P$ 。
点线 $\boldsymbol b-\boldsymbol p$ 就是“误差” $\boldsymbol e=\boldsymbol b-\hat x\boldsymbol a$ ，它与向量 $\boldsymbol a$ 垂直，由这个条件我们就可以求出 $\hat x$ 。由于 $\boldsymbol b-\hat x\boldsymbol a$ 和向量 $\boldsymbol a$ 垂直，所以它们的点积为零：

$\begin{matrix}\boldsymbol b\,投影到\,\boldsymbol a\,上，误差\,\boldsymbol e=\boldsymbol b-\hat x\boldsymbol a\\\boldsymbol a\cdot(\boldsymbol b-\hat x\boldsymbol a)=0\,或\,\boldsymbol a\cdot\boldsymbol b-\hat x\boldsymbol a\cdot\boldsymbol a=0\end{matrix}\kern 20pt\begin{matrix}\hat x=\displaystyle\frac{\boldsymbol a\cdot\boldsymbol b}{\boldsymbol a\cdot\boldsymbol a}=\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}\end{matrix}\kern 10pt(4.2.2)$

乘法 $\boldsymbol a^T\boldsymbol b$ 和 $\boldsymbol a\cdot\boldsymbol b$ 是一样的，转置的表示方法会更好些，因为它也可以应用在矩阵上。由公式 $\hat x=\displaystyle\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}$ 可以得到投影 $\boldsymbol p=\hat x\boldsymbol a$ 。

${\color{Blue}向量\,\boldsymbol b\,在通过\,\boldsymbol a\,的直线上的投影是向量\kern 7pt\boldsymbol p=\hat x\boldsymbol a=\displaystyle{\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}\boldsymbol a}}\\\,\\特殊情况1：如果\,\boldsymbol b=\boldsymbol a，则\,\hat x=1。\boldsymbol a\,投影到\,\boldsymbol a\,是它自己。P\boldsymbol a=\boldsymbol a。\\特殊情况2：如果\,\boldsymbol b\,垂直于\,\boldsymbol a，则\,\boldsymbol a^T\boldsymbol b=0。投影\,\boldsymbol p=0.\kern 63pt$

【例1】将 $\boldsymbol b=\begin{bmatrix}1\\1\\1\end{bmatrix}$ 投影在 $\boldsymbol a=\begin{bmatrix}1\\2\\2\end{bmatrix}$ 上，求出 Figure 4.6 中的 $\boldsymbol p=\hat x\boldsymbol a$ 。
解：数字 $\hat x$ 是 $\boldsymbol a^T\boldsymbol b=5$ 和 $\boldsymbol a^T\boldsymbol a=9$ 的比值，所以投影 $\boldsymbol p=\displaystyle\frac{5}{9}\boldsymbol a$ 。
$\boldsymbol b$ 和 $\boldsymbol p$ 之间的误差向量是 $\boldsymbol e=\boldsymbol b-\boldsymbol p$ ，向量 $\boldsymbol p$ 和 $\boldsymbol e$ 相加可以得到 $\boldsymbol b=(1,1,1)$ ： $\boldsymbol p=\displaystyle\frac{5}{9}\boldsymbol a=\left(\frac{5}{9},\frac{10}{9},\frac{10}{9}\right)\kern 15pt\boldsymbol e=\boldsymbol b-\boldsymbol p=\left(\frac{4}{9},-\frac{1}{9},-\frac{1}{9}\right)$ 误差 $\boldsymbol e$ 垂直于 $\boldsymbol a=(1,2,2)$ ： $\boldsymbol e^T\boldsymbol a=\displaystyle\frac{4}{9}-\frac{2}{9}-\frac{2}{9}=0$ 。
直角三角形 $\boldsymbol b，\boldsymbol p$ 和 $\boldsymbol e$ ，向量 $\boldsymbol b$ 分成两部分 —— 沿着直线的分量是 $\boldsymbol p$ ，与直线垂直的部分是 $\boldsymbol e$ 。这两条边 $\boldsymbol p$ 和 $\boldsymbol e$ 的长度是 $||\boldsymbol p||=||\boldsymbol b||\cos\theta$ ， $||\boldsymbol e||=||\boldsymbol b||\sin\theta$ 。与三角学的点积相匹配： $\boldsymbol p=\displaystyle\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}\boldsymbol a\kern 5pt的长度\kern 5pt||\boldsymbol p||=\displaystyle\frac{||\boldsymbol a||||\boldsymbol b||\cos\theta}{||\boldsymbol a||^2}||\boldsymbol a||=||\boldsymbol b||\cos\theta\kern 20pt(4.2.3)$ 点积比上述带有 $\cos\theta$ 和 $\boldsymbol b$ 长度的形式更简洁，本例中会在 $\cos\theta=\displaystyle\frac{5}{3\sqrt3}$ 与 $||\boldsymbol b||=\sqrt 3$ 出现平方根，而投影 $\boldsymbol p=\displaystyle\frac{5}{9}\boldsymbol a$ 没有平方根出现。通过 $\displaystyle\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}$ 得到 $\displaystyle\frac{5}{9}$ 是比较好的一种方法。
现在来看投影矩阵，在 $\boldsymbol p$ 的公式中，是哪个矩阵乘 $\boldsymbol b$ 呢？如果将 $\hat x$ 放在 $\boldsymbol a$ 的右侧，那么就很容易看出这个矩阵：

$\pmb{投影矩阵\,P}\kern 10pt当矩阵\,{\color{Blue}P=\displaystyle\frac{\boldsymbol a\boldsymbol a^T}{\boldsymbol a^T\boldsymbol a}}\,时，{\color{Blue}p=\boldsymbol a\hat x=\boldsymbol a\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}=P\boldsymbol b}$

$P$ 是一列乘一行！列是 $\boldsymbol a$ ，行是 $\boldsymbol a^T$ ，除以数字 $\boldsymbol a^T\boldsymbol a$ 。投影矩阵 $P$ 是一个 $m\times m$ 的秩一矩阵，我们对一维子空间做投影，这条直线通过 $\boldsymbol a$ ，它是 $P$ 的列空间。

【例2】求投影在通过 $\boldsymbol a=\begin{bmatrix}1\\2\\2\end{bmatrix}$ 的直线上的投影矩阵 $P=\displaystyle\frac{\boldsymbol a\boldsymbol a^T}{\boldsymbol a^T\boldsymbol a}$ 。
解：列 $\boldsymbol a$ 乘行 $\boldsymbol a^T$ 再除以 $\boldsymbol a^T\boldsymbol a=9$ ： $投影矩阵\kern 10ptP=\displaystyle\frac{\boldsymbol a\boldsymbol a^T}{\boldsymbol a^T\boldsymbol a}=\frac{1}{9}\begin{bmatrix}1\\2\\2\end{bmatrix}\begin{bmatrix}1&2&2\end{bmatrix}=\frac{1}{9}\begin{bmatrix}1&2&2\\2&4&4\\2&4&4\end{bmatrix}$ 这个矩阵可以将任意向量 $\boldsymbol b$ 投影到 $\boldsymbol a$ ，验证例1中 $\boldsymbol p=P\boldsymbol b$ ，其中 $\boldsymbol b=(1,1,1)$ ： $\boldsymbol p=P\boldsymbol b=\frac{1}{9}\begin{bmatrix}1&2&2\\2&4&4\\2&4&4\end{bmatrix}\begin{bmatrix}1\\1\\1\end{bmatrix}=\frac{1}{9}\begin{bmatrix}5\\10\\10\end{bmatrix}\kern 10pt正确$ 如果向量 $\boldsymbol a$ 加倍，矩阵 $P$ 不变！它仍然是投影在相同的直线上。如果矩阵平方， $P^2=P$ 。投影两次不会改变任何东西，所以 $P^2=P$ 。对角元素的和 $\displaystyle\frac{1}{9}(1+4+4)=1$ 。
矩阵 $I - P$ 也是投影矩阵，它可以得到三角形的另一边 $\boldsymbol e$ ，即 $\boldsymbol b$ 的垂直部分。注意 $(I-P)\boldsymbol b=\boldsymbol b-\boldsymbol p$ 就是左零空间中的 $\boldsymbol e$ 。
当 $P$ 投影到一个子空间， $I - P$ 会投影到垂直的子空间中。这里 $I - P$ 投影到垂直于 $\boldsymbol a$ 的平面。

三、投影到一个子空间

下面我们将视角从一维移开，看一下投影在一个 $n$ 维子空间的情况。
$\textrm{\pmb R}^m$ 中有 $n$ 个向量 $\boldsymbol a_1,\boldsymbol a_2,\cdots,\boldsymbol a_n$ ，假设这些向量都是线性无关的。
${\color{Blue}\pmb{问题：}找到离给定向量\,\boldsymbol b\,最近的组合\,\boldsymbol p=\hat x_1\boldsymbol a_1+\hat x_2\boldsymbol a_2+\cdots+\hat x_n\boldsymbol a_n。}$ 我们要将 $Rm \pmb{\textrm R}^m$ 中的每个向量 $\boldsymbol b$ 投影到由 $\boldsymbol a's$ 所张成的子空间中。
当 $n = 1$ （只有一个向量 $\boldsymbol a_1$ ）时，就是投影到一条直线上，这条直线是 $A$ 的列空间，此时 $A$ 只有一列。一般情况下矩阵 $A$ 有 $n$ 列，分别是 $\boldsymbol a_1,\boldsymbol a_2,\cdots,\boldsymbol a_n$ 。
$\textrm{\pmb R}^m$ 中的组合是列空间中的向量 $A\boldsymbol x$ ，我们要找到一个特别的组合 $\boldsymbol p=A\hat {\boldsymbol x}$ （投影），它离 $\boldsymbol b$ 是最近的。在 $\hat{\boldsymbol x}$ 上的一个帽子表示这是一个最好的选择，它可以得到子空间中最靠近 $\boldsymbol b$ 的一个向量。当 $n = 1$ 时，选择就是 $\hat x=\displaystyle\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}$ ；当 $n > 1$ 时，就是我们现在要找到的最佳选择 $\hat {\boldsymbol x}=(\hat x_1,\hat x_2,\cdots,\hat x_n)$ 。
和一维的情况一样，我们同样用三个步骤来计算在 $n$ 维子空间的投影：找到向量 $\hat{\boldsymbol x}$ ；找到投影 $\boldsymbol p=A\hat{\boldsymbol x}$ ；找到投影矩阵 $P$ 。
这里的关键就在几何方面！Figure 4.6 中的点线是从 $\boldsymbol b$ 到子空间最近的点 $A\hat{\boldsymbol x}$ ，误差向量 $\boldsymbol b-A\hat{\boldsymbol x}$ 垂直于子空间。误差 $\boldsymbol b-A\hat{\boldsymbol x}$ 和所有的基向量 $\boldsymbol a_1,\boldsymbol a_2,\cdots,\boldsymbol a_n$ 都有一个直角，这 $n$ 个直角可以得到 $n$ 个 $\hat{\boldsymbol x}$ 的方程：

$\begin{matrix}\boldsymbol a_1^T(\boldsymbol b-A\hat{\boldsymbol x})=0\\\vdots\\\boldsymbol a_n^T(\boldsymbol b-A\hat{\boldsymbol x})=0\end{matrix}\kern 5pt或\kern 5pt\begin{bmatrix}-\boldsymbol a_1^T-\\\vdots\\-\boldsymbol a_n^T-\end{bmatrix}\begin{bmatrix}\boldsymbol b-A\hat{\boldsymbol x}\end{bmatrix}=\begin{bmatrix}\,\\0\\\,\end{bmatrix}\kern 15pt(4.2.4)$

行是 $\boldsymbol a_i^T$ 的据说是 $A^T$ ，这 $n$ 个方程就是 $A^T(\boldsymbol b-A\hat{\boldsymbol x})=\boldsymbol 0$ 。
将 $A^T(\boldsymbol b-A\hat{\boldsymbol x})=\boldsymbol 0$ 改写成著名的形式 $A^TA\hat{\boldsymbol x}=A^T\boldsymbol b$ ，这个就是 $\hat{\boldsymbol x}$ 的方程，系数矩阵是 $A^TA$ 。现在我们就可以按照顺序求出 $\hat{\boldsymbol x}、\boldsymbol p$ 和 $P$ 。

组合 $\boldsymbol p=\hat x_1\boldsymbol a_1+\hat x_2\boldsymbol a_2+\cdots+\hat x_n\boldsymbol a_n=A\hat{\boldsymbol x}$ 是由 $\hat{\boldsymbol x}$ 得到的距离 $\boldsymbol b$ 最近的点： $求\,\hat{\boldsymbol x}\,\,(n\times1)\kern 10ptA^T(\boldsymbol b-A\hat{\boldsymbol x})=\boldsymbol 0\,\,或\,\,A^TA\hat{\boldsymbol x}=A^T\boldsymbol b\kern 15pt(4.2.5)$ $A^TA$ 是 $n\times n$ 的对称矩阵，如果 $\boldsymbol a's$ 是无关的，则它可逆，解是 $\hat{\boldsymbol x}=(A^TA)^{-1}A^T\boldsymbol b$ 。 $\boldsymbol b$ 在子空间的投影是 $\boldsymbol p$ ： $求\,\boldsymbol p\,\,(m\times1)\kern 15pt\boldsymbol p=A\hat{\boldsymbol x}=A(A^TA)^{-1}A^T\boldsymbol b\kern 35pt(4.2.6)$ 下个公式是投影矩阵，就是（4.2.6）中乘 $\boldsymbol b$ 的部分： $求\,P\,\,(m\times m)\kern 20ptP=A(A^TA)^{-1}A^T\kern 55pt(4.2.7)$

对比一下在直线上的投影，当 $A$ 只有一列时： $A^TA$ 就是 $\boldsymbol a^T\boldsymbol a$ 。

$当\,n=1,\kern 20pt\hat x=\displaystyle\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}，\boldsymbol p=\boldsymbol a\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}，P=\frac{\boldsymbol a\boldsymbol a^T}{\boldsymbol a^T\boldsymbol a}$

这些公式和（4.2.5）、（4.2.6）、（4.2.7）是一致的，数字 $\boldsymbol a^T\boldsymbol a$ 变成了矩阵 $A^TA$ ，当它是数字时，我们可以直接除以它；当它是矩阵时，我们取它的逆。新的公式里是 $A^TA)^{-1}$ 而不是 $1/\boldsymbol a^T\boldsymbol a$ 。列 $\boldsymbol a_1,\boldsymbol a_2,\cdots,\boldsymbol a_n$ 的线性无关保证了逆矩阵的存在。
关键的步骤是 $A^T(\boldsymbol b-A\hat{\boldsymbol x})=\boldsymbol 0$ ，在这里使用了几何性质（ $\boldsymbol e$ 与每个 $\boldsymbol a$ 正交）。线性代数用快速又漂亮的方法也给出了 “正态方程”（normal equation）：

子空间是 $A$ 的列空间
误差向量 $\boldsymbol b-A\hat{\boldsymbol x}$ 垂直于这个列空间
因此 $\boldsymbol b-A\hat{\boldsymbol x}$ 在 $A^T$ 的零空间中！就是 $A^T(\boldsymbol b-A\hat{\boldsymbol x})=\boldsymbol 0$ 的意思。

左零空间在投影中非常重要， $A^T$ 的零空间包含误差向量 $\boldsymbol b-A\hat{\boldsymbol x}$ 。向量 $\boldsymbol b$ 分成了投影 $\boldsymbol p$ 和误差 $\boldsymbol e=\boldsymbol b-\boldsymbol p$ 。投影产生了三个边分别是 $\boldsymbol p，\boldsymbol e$ 和 $\boldsymbol b$ 的三角形。

【例3】如果 $A=\begin{bmatrix}1&0\\1&1\\1&2\end{bmatrix}$ ， $\boldsymbol b=\begin{bmatrix}6\\0\\0\end{bmatrix}$ ，求 $\hat{\boldsymbol x}、\boldsymbol p$ 和 $P$ 。
解：计算方阵 $A^TA$ 和向量 $A^T\boldsymbol b$ ： $A^TA=\begin{bmatrix}1&1&1\\0&1&2\end{bmatrix}\begin{bmatrix}1&0\\1&1\\1&2\end{bmatrix}=\begin{bmatrix}3&3\\3&5\end{bmatrix}，A^T\boldsymbol b=\begin{bmatrix}1&1&1\\0&1&2\end{bmatrix}\begin{bmatrix}6\\0\\0\end{bmatrix}=\begin{bmatrix}6\\0\end{bmatrix}$ 下面求解正态方程 $A^TA\hat{\boldsymbol x}=A^T\boldsymbol b$ ，得到 $\hat{\boldsymbol x}$ ： $\begin{bmatrix}3&3\\3&5\end{bmatrix}\begin{bmatrix}\hat x_1\\\hat x_2\end{bmatrix}=\begin{bmatrix}6\\0\end{bmatrix}解得\,\hat{\boldsymbol x}=\begin{bmatrix}\hat x_1\\\hat x_2\end{bmatrix}=\begin{bmatrix}\kern 7pt5\\-3\end{bmatrix}\kern 15pt(4.2.8)$ 组合 $\boldsymbol p=A\hat{\boldsymbol x}$ 是 $\boldsymbol b$ 在 $A$ 列空间上的投影： $\boldsymbol p=5\begin{bmatrix}1\\1\\1\end{bmatrix}-3\begin{bmatrix}0\\1\\2\end{bmatrix}=\begin{bmatrix}\kern 7pt5\\\kern 7pt2\\-1\end{bmatrix}，误差是\,\boldsymbol e=\boldsymbol b-\boldsymbol p=\begin{bmatrix}\kern 7pt1\\-2\\\kern 7pt1\end{bmatrix}\kern 10pt(4.2.9)$ 在计算上要检查两个地方，第一，误差 $\boldsymbol e=(1,-2,1)$ 与两列 $(1, 1, 1)$ 和 $(0, 1, 2)$ 都垂直；第二，矩阵 $P$ 乘 $\boldsymbol b=(6,0,0)$ 能够正确得到 $\boldsymbol p=(5,2,-1)$ 。我们得到矩阵 $P$ 后，就可以立刻对特定的 $\boldsymbol b$ 的投影进行求解。
投影矩阵是 $P=A(A^TA)^{-1}A^T$ ， $A^TA$ 的行列式是 $15 - 9 = 6$ ，很容易就可以求出 $A^TA)^{-1}$ 。 $A$ 乘 $A^TA)^{-1}$ 乘 $A^T$ 得到 $P$ ： $(A^TA)^{-1}=\frac{1}{6}\begin{bmatrix}\kern 7pt5&-3\\-3&\kern 7pt3\end{bmatrix}，P=\frac{1}{6}\begin{bmatrix}\kern 7pt5&2&-1\\\kern 7pt2&2&\kern 7pt2\\-1&2&\kern 7pt5\end{bmatrix}\kern 15pt(4.2.10)$ 一定有 $P^2=P$ ，因为第二次投影不会改变第一次投影。
警告： 矩阵 $P=A(A^TA)^{-1}A^T$ 会具有误导性，如果将 $A^TA)^{-1}$ 分成 $A^{-1}$ 乘 $A^T)^{-1}$ ，然后将它们继续代入 $P$ ，则会发现 $P=AA^{-1}(A^T)^{-1}A^T$ ，此时全部都消去了，看起来就像是 $P = I$ ，是一个单位矩阵。但是这是错误的。
矩阵 $A$ 是矩形，大部分情况下是没有逆矩阵的。我们不能将 $A^TA)^{-1}$ 拆成 $A^{-1}$ 乘 $A^T)^{-1}$ ，因为 $A^{-1}$ 都不一定存在。
以我们的经验来看，牵涉到矩形矩阵的情况大多数都会得到 $A^TA$ ，如果 $A$ 的列是无关的，则 $A^TA$ 是可逆的。这个事实很重要，我们会清楚的描述并证明。

${\color{Blue}A^TA\,可逆当且仅当\,A\,的列是线性无关的。}$

证明： $A^TA$ 是一个方阵 $(n\times n)$ 。对于每个矩阵 $A$ ，下面会证明 $A^TA$ 和 $A$ 有相同的零空间。若 $A$ 的列线性无关，则它的零空间只有零向量，由于 $A^TA$ 和 $A$ 有相同的零空间，可得 $A^TA$ 可逆。
对于任意的矩阵 $A$ ，如果 $\boldsymbol x$ 在它的零空间中，则 $A\boldsymbol x=\boldsymbol 0$ ，左乘 $A^T$ 得 $A^TA\boldsymbol x=\boldsymbol 0$ ，所以 $\boldsymbol x$ 也在 $A^TA$ 的零空间中。
现在从 $A^TA$ 的零空间开始，我们由 $A^TA\boldsymbol x=\boldsymbol 0$ 证明 $A\boldsymbol x=\boldsymbol 0$ 。我们不能在左边乘上 $A^T)^{-1}$ ，一般来说它不存在。我们左乘 $\boldsymbol x^T$ ： $(\boldsymbol x^T)A^TA\boldsymbol x=0\,即\,(A\boldsymbol x)^T(A\boldsymbol x)=0\,或\,||A\boldsymbol x||^2=0\kern 20pt(4.2.11)$ 这里证明了若 $A^TA\boldsymbol x=\boldsymbol 0$ ，那么 $A\boldsymbol x$ 的长度为零，所以 $A\boldsymbol x=\boldsymbol 0$ 。每个向量 $\boldsymbol x$ 在其中一个的零空间中也在另外一个的零空间。所以 $A^TA$ 和 $A$ 有相同的零空间。如果 $A^TA$ 有相关列，那么 $A$ 也一样；如果 $A^TA$ 是无关列，则 $A$ 也是，这种情况很好，此时 $A^TA$ 可逆。 ${\color{Blue}当\,A\,的列线性无关时，A^TA\,是方形、对称且可逆的矩阵。}$ 再次强调： $A^TA$ 是（ $n\times m$ ）乘 $(m\times n)$ ，则 $A^TA$ 是方阵（ $n\times n$ ）。对称是因为 $A^TA)^T=A^T(A^T)^T=A^TA$ 。我们刚刚证明了当 $A$ 的列线性无关时， $A^TA$ 可逆。注意无关列和相关列的差别： $\begin{matrix}\kern 14ptA^T\kern 31ptA\kern 37ptA^TA&\kern 13ptA^T\kern 31ptA\kern 35ptA^TA\\\begin{bmatrix}1&1&0\\2&2&0\end{bmatrix}\begin{bmatrix}1&2\\1&2\\0&0\end{bmatrix}=\begin{bmatrix}2&4\\4&8\end{bmatrix}&\begin{bmatrix}1&1&0\\2&2&1\end{bmatrix}\begin{bmatrix}1&2\\1&2\\0&1\end{bmatrix}=\begin{bmatrix}2&4\\4&9\end{bmatrix}\\\kern 51pt相关\kern 28pt奇异&\kern 51pt无关\kern 28pt可逆\end{matrix}$ 非常简短的总结：为了求出投影 $\boldsymbol p=\hat x_1\boldsymbol a_1+\hat x_2\boldsymbol a_2+\cdots+\hat x_n\boldsymbol a_n$ ，求解 $A^TA\hat{\boldsymbol x}=A^T\boldsymbol b$ ，得到 $\hat{\boldsymbol x}$ 。投影 $\boldsymbol p=A\hat{\boldsymbol x}$ ，误差是 $\boldsymbol e=\boldsymbol b-\boldsymbol p=\boldsymbol b-A\hat{\boldsymbol x}$ 。投影矩阵 $P=A(A^TA)^{-1}A^T$ 得到 $\boldsymbol p=P\boldsymbol b$ 。 $\pmb{投影矩阵满足\,P^2=P。从\,\boldsymbol b\,到子空间\,\pmb C(A)\,的距离是\,||\boldsymbol e||。}$

四、主要内容总结

$\boldsymbol b$ 在通过 $\boldsymbol a$ 的直线上的投影是 $\boldsymbol p=\boldsymbol a\hat x=\boldsymbol a\displaystyle \frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}$ 。
秩一的投影矩阵 $P=\displaystyle\frac{\boldsymbol a\boldsymbol a^T}{\boldsymbol a^T\boldsymbol a}$ 乘 $\boldsymbol b$ 得到 $\boldsymbol p$ 。
把 $\boldsymbol b$ 投影到子空间会有 $\boldsymbol e=\boldsymbol b-\boldsymbol p$ 垂直于这个子空间。
当 $A$ 有列满秩 $n$ 时，由方程 $A^TA\hat{\boldsymbol x}=A^T\boldsymbol b$ 可以得到 $\hat{\boldsymbol x}$ 和 $\boldsymbol p=A\hat{\boldsymbol x}$ 。
投影矩阵 $P=A(A^TA)^{-1}A^T$ ，有 $P^T=P、P^2=P、P\boldsymbol b=\boldsymbol p$ 。

五、例题

【例4】将 $\boldsymbol b=(3,4,4)$ 投影在一条过 $\boldsymbol a=(2,2,1)$ 的直线上，然后将它投影在同时包含 $\boldsymbol a^*=(1,0,0)$ 的平面上。验证第一个误差向量 $\boldsymbol b-\boldsymbol p$ 垂直于 $\boldsymbol a$ ，第二个误差向量 $\boldsymbol e^*=\boldsymbol b-\boldsymbol p^*$ 也垂直于 $\boldsymbol a^*$ 。
求出将向量投影在包含有 $\boldsymbol a$ 和 $\boldsymbol a^*$ 平面上的 $3\times3$ 的投影矩阵 $P$ 。找到一个在这个平面上的投影是零向量的向量，为什么它就是误差 $\boldsymbol e^*$ ?
解： $\boldsymbol b$ 在通过 $\boldsymbol a=(2,2,1)$ 直线上的投影是 $\boldsymbol p=2\boldsymbol a$ ： $\pmb{投影在直线}\kern 20pt\boldsymbol p=\displaystyle\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}\boldsymbol a=\frac{18}{9}(2,2,1)=(4,4,2)=2\boldsymbol a$ 误差向量 $\boldsymbol e=\boldsymbol b-\boldsymbol p=(-1,0,2)$ 垂直于 $\boldsymbol a=(2,2,1)$ ，所以 $\boldsymbol p$ 是正确的。
$\boldsymbol a=(2,2,1)$ 和 $\boldsymbol a^*=(1,0,0)$ 所形成的平面是 $A=\begin{bmatrix}\boldsymbol a&\boldsymbol a^*\end{bmatrix}$ 的列空间： $A=\begin{bmatrix}2&1\\2&0\\1&0\end{bmatrix},\kern 5ptA^TA=\begin{bmatrix}9&2\\2&1\end{bmatrix},\kern 5pt(A^TA)^{-1}=\frac{1}{5}\begin{bmatrix}\kern 7pt1&-2\\-2&\kern 7pt9\end{bmatrix},\kern 5ptP=\frac{1}{5}\begin{bmatrix}5&0&0\\0&4&2\\0&2&1\end{bmatrix}$ 可得 $\boldsymbol p^*=P\boldsymbol b=\displaystyle(3,\frac{24}{5},\frac{12}{5})$ ，误差向量 $\boldsymbol e^*=\boldsymbol b-\boldsymbol p^*=(0,-\displaystyle\frac{4}{5},\frac{8}{5})$ 垂直于 $\boldsymbol a$ 和 $\boldsymbol a^*$ 。 $\boldsymbol e^*$ 在 $P$ 的零空间，它的投影是零！注意 $P^2=P=P^T$ 。

【例5】假设测量你的心跳每分钟是 $x = 70$ ，然后是 $x = 80$ ，再然后是 $x = 120$ 。这三个方程 $A\boldsymbol x=\boldsymbol b$ 只有一个未知数，且 $A=\begin{bmatrix}1&1&1\end{bmatrix}$ ， $\boldsymbol b=(70,80,120)$ 。则最好的 $\hat{\boldsymbol x}$ 是 $70, 80, 120$ 的 _____。使用微积分和投影：

由 $\displaystyle\frac{\textrm dE}{\textrm dx}=0$ ，最小化 $E=(x-70)^2+(x-80)^2+(x-120)^2$ 。
将 $\boldsymbol b$ 投影到 $\boldsymbol a=(1,1,1)$ ，求解 $\hat x=\displaystyle\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}$ 。

解：最接近高度 $70 、 80 、 120$ 的水平线是平均值 $\hat x=90$ ： $\frac{\textrm dE}{\textrm dx}=2(x-70)+2(x-80)+2(x-120)=0\kern 5pt解得\kern 5pt\hat x=\frac{70+80+120}{3}=90$ $用投影求解：\hat x=\frac{\boldsymbol a^T\boldsymbol b}{\boldsymbol a^T\boldsymbol a}=\frac{(1,1,1)^T(70,80,120)}{(1,1,1)^T(1,1,1)}=\frac{70+80+120}{3}=90$ 在递归最小二乘法中，第四个测量数据 $130$ 将会把平均值 $\hat x_{old}=90$ 变成 $\hat x_{new}=100$ 。验证新的公式 $\hat x_{new}=\hat x_{old}+\displaystyle\frac{1}{4}(130-\hat x_{old})$ 。当我们有一个新的测量值时，不需要把旧的测量值再次平均。