超定方程组和欠定方程组

最新推荐文章于 2022-08-26 14:14:48 发布

做技术不可耻

最新推荐文章于 2022-08-26 14:14:48 发布

阅读量8.5k

点赞数 6

文章标签：线性代数

本文链接：https://blog.csdn.net/qq_40019838/article/details/101923161

版权

超定方程组：最小二乘法

最小二乘法是一种求线性方程组近似解的方法，基本思想是最小化残差平方和 $\sum_{i=1}^{n}(\hat{\mathbf{y}_i}-\mathbf{y}_i)^2$ ，接下来从线性代数的角度来对最小二乘法进行完整的推导。

对于线性方程组 $\mathbf{Ax}=\mathbf{y}$ ，其有解的充要条件是 $\mathbf{y}$ 在 $\mathbf{A}$ 的列空间中，在数据拟合任务中这一条件往往是不成立的，那么就需要寻求近似解，一个最优的近似解显然是将 $\mathbf{y}$ 垂直投影到 $\mathbf{A}$ 的列空间中，也就是将 $\mathbf{y}$ 分解为垂直于列空间与平行于列空间两部分，使用平行于列空间的分量代替 $\mathbf{y}$ 用来求解方程组。

先从将向量投影到向量考虑，假设存在向量 $\mathbf{a}$ ， $\mathbf{b}$ ，现在想要将 $\mathbf{b}$ 投影到 $\mathbf{a}$ 上， $\mathbf{b}$ 在 $\mathbf{a}$ 上的投影可以表示为 $\mathbf{a}x$ ， $\mathbf{b}$ 垂直于 $\mathbf{a}$ 的分量可以表示为 $\mathbf{b}-\mathbf{a}x$ （这就是施密特正交化的原理），那么显然有
$\mathbf{a}^T(\mathbf{b}-\mathbf{a}x)=0$
解得
$x=\frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}$
那么投影的表达式就是
$\mathbf{a}x=\mathbf{a}\frac{\mathbf{a}^T\mathbf{b}}{\mathbf{a}^T\mathbf{a}}$
如果将分子上的 $\mathbf{b}$ 去掉的话，这个表达式将只与 $\mathbf{a}$ 有关，并且是一个矩阵，这个矩阵就是将 $\mathbf{b}$ 投影到 $\mathbf{a}$ 的投影矩阵
$\mathbf{P}=\frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T\mathbf{a}}$
任何一个向量 $\mathbf{b}$ 经这个矩阵变换后将被投影到 $\mathbf{a}$ 上，不难发现这是一个对称矩阵，且满足 $\mathbf{P}^2=\mathbf{P}$ ，因为一个向量经过一次投影后已经被投影到 $\mathbf{a}$ 上，再投影一次将不发生变化。

接下来考虑将一个向量 $\mathbf{y}$ 投影到矩阵 $\mathbf{A}$ 的列空间中，仿照之前的做法， $\mathbf{A}$ 的列空间中的向量可以表示为 $\mathbf{A}$ 的列的线性组合，即 $\mathbf{A}\hat{\mathbf{x}}$ ， $\mathbf{y}$ 垂直于的列空间的分量可以表示为 $\mathbf{y}-\mathbf{A}\hat{\mathbf{x}}$ ，显然 $\mathbf{A}$ 的每一列均垂直于 $\mathbf{y}-\mathbf{A}\hat{\mathbf{x}}$ ，也就是说
$\mathbf{A}^T(\mathbf{y}-\mathbf{A}\hat{\mathbf{x}})=0$
化简得到
$\mathbf{A}^T\mathbf{A}\hat{\mathbf{x}}=\mathbf{A}^T\mathbf{y}$
$\hat{\mathbf{x}}$ 实际上就是方程组的近似解，如果 $\mathbf{A}^T\mathbf{A}$ 可逆的话，那么
$\hat{\mathbf{x}}=(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\mathbf{y}$
投影后的 $\mathbf{y}$ 就是 $\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\mathbf{y}$ ，如果将 $\mathbf{y}$ 去掉的话，剩下的部分将只与 $\mathbf{A}$ 有关并且是一个矩阵，这个矩阵就是将 $\mathbf{y}$ 投影到 $\mathbf{A}$ 的列空间的投影矩阵
$\mathbf{P}=\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T$
这是一个对称矩阵，因为
$\begin{aligned} \mathbf{P}^T&=(\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T)^T\\ &=(\mathbf{A}^T)^T((\mathbf{A}^T\mathbf{A})^{-1})^T\mathbf{A}^T\\ &=\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\\ &=\mathbf{P} \end{aligned}$
并且同样满足 $\mathbf{P}^2=\mathbf{P}$ ，因为
$\begin{aligned} \mathbf{P}^2&=\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\\ &=\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}(\mathbf{A}^T\mathbf{A})(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\\ &=\mathbf{A}(\mathbf{A}^T\mathbf{A})^{-1}\mathbf{A}^T\\ &=\mathbf{P} \end{aligned}$
剩下的最后一个问题就是如果判断 $\mathbf{A}^T\mathbf{A}$ 是否可逆，实际上 $r(\mathbf{A}^T\mathbf{A})=r(\mathbf{A})$ ，也就是说如果 $\mathbf{A}$ 是列满秩的话， $\mathbf{A}^T\mathbf{A}$ 就可逆，现在来证明这个结论，如果 $\mathbf{A}^T\mathbf{A}$ 与 $\mathbf{A}$ 有相同的零空间的话，这一结论显然成立（零空间的维数是 $n - r$ ），要证明 $\mathbf{A}^T\mathbf{A}$ 与 $\mathbf{A}$ 有相同的零空间，只需证明对任意的 $\mathbf{x}$ ， $\mathbf{Ax}=\mathbf{0}\Leftrightarrow\mathbf{A}^T \mathbf{Ax}=\mathbf{0}$ 。 $\Rightarrow$ 显然成立，只需证明 $\Leftarrow$ ，假设 $\mathbf{A}^T \mathbf{Ax}=\mathbf{0}$ ，等式两边同乘 $\mathbf{x}^T$ 有
$\mathbf{x}^T\mathbf{A}^T \mathbf{Ax}=\mathbf{0}$
即
$(\mathbf{Ax})^T\mathbf{Ax}=\mathbf{0}$
显然有 $\mathbf{Ax}=\mathbf{0}$ ，证明完毕。

只需要 $\mathbf{A}$ 列满秩，就可以得到线性方程组的最小二乘解，实际上这一要求不难成立，因为在数据拟合任务中往往 $\mathbf{A}$ 的行数远远大于列数。

最后来看一下投影矩阵 $\mathbf{P}$ ，它将一个向量投影到矩阵 $\mathbf{A}$ 的列空间，在线性代数中我们知道 $\mathbf{A}$ 的左零空间（ $\mathbf{A}^T\mathbf{x}=\mathbf{0}$ ）与 $\mathbf{A}$ 的列空间是正交的，假设 $\mathbf{A}$ 的左零空间的投影矩阵是 $\mathbf{L}$ ，那么对任意向量 $\mathbf{y}$ 有
$(\mathbf{Py})^T(\mathbf{Ly})=\mathbf{0}$
即
$\mathbf{y}^T\mathbf{P}^T\mathbf{Ly}=\mathbf{0}$
$\mathbf{P}$ 是对称矩阵，所以有
$\mathbf{PL}=\mathbf{O}$
解得
$\mathbf{L}=\mathbf{I}-\mathbf{P}$
于是在求得列空间的投影矩阵 $\mathbf{P}$ 后，就是求得了左零空间的投影矩阵 $\mathbf{L}$ 。

欠定方程组：QR分解

对方程组
$\mathbf{A}\boldsymbol{x}=\boldsymbol{b}$
其中 $\mathbf{A}\in\R^{p\times n}$ ，如果 $p < n$ ，那么此方程组就称为欠定方程组，如果 $\boldsymbol{A}$ 满足 $rank(\boldsymbol{A})=p$ ，那么对任意 $b$ 方程组至少有一个解(参考线性方程组的解个数与秩的关系)，此时可以通过QR分解来得到方程组的一个解。

此时 $\boldsymbol{A}^T$ 列满秩，可以分解为
$\mathbf{A}^T=\mathbf{QR}$
其中 $\mathbf{Q}\in\R^{n\times p}$ ，是 $\mathbf{A}$ 的列空间的一组标准正交基， $\boldsymbol{R}\in\R^{p\times p}$ ，其第 $i$ 行第 $j$ 列的元素为 $\mathbf{Q}$ 的第 $i$ 列与 $\mathbf{A}$ 的第 $j$ 列的内积，是一个上三角矩阵。此时 $\hat{\boldsymbol{x}}=\mathbf{QR}^{-T}\boldsymbol{b}$ 明显满足该方程组：
$\mathbf{A}\hat{\boldsymbol{x}}=\mathbf{R}^T\mathbf{Q}^T\mathbf{QR}^{-T}\boldsymbol{b}=\boldsymbol{b}$
再通过求解 $\mathbf{A}$ 的零空间的基就可以得到一系列解。

做技术不可耻

关注

6
点赞
踩
40

收藏

觉得还不错? 一键收藏
5
评论
超定方程组和欠定方程组

超定方程组：最小二乘法最小二乘法是一种求线性方程组近似解的方法，基本思想是最小化残差平方和∑i=1n(yi^−yi)2\sum_{i=1}^{n}(\hat{\mathbf{y}_i}-\mathbf{y}_i)^2∑i=1n(yi^−yi)2，接下来从线性代数的角度来对最小二乘法进行完整的推导。对于线性方程组Ax=y\mathbf{Ax}=\mathbf{y}Ax=y，其有解的充要条...
复制链接

扫一扫