超定方程的求解、最小二乘解、Ax=0、Ax=b的解，求解齐次方程组，求解非齐次方程组（推导十分详细）

最新推荐文章于 2024-03-07 15:18:08 发布

一点儿也不萌的萌萌

最新推荐文章于 2024-03-07 15:18:08 发布

阅读量1.6w

点赞数 66

分类专栏：数学公式推导文章标签：线性代数线性规划超定方程组最小二乘解线性方程组

本文链接：https://blog.csdn.net/u011341856/article/details/107758182

版权

数学公式推导专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了超定方程组的两种求解方法，包括求导法和SVD分解法，以及非齐次线性方程组的SVD分解求解方法，深入解析了特征值、特征向量和最小二乘问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇主要介绍的是超定方程组的求解，如果你不想看繁琐的推导过程，你可以直接看红字部分的结论！

1. 齐次线性方程组 Ax = 0

对于方程 $\bm A \bm x = 0$ ，在我们实际的使用中，多数情况下只考虑方程数量多于未知元素的情形——超定方程组。

通过数学表示，可以将超定方程表示为： $\bm A \bm x = 0$ ， $\bm A$ 是 $\times n$ ，列满秩，且 $m > n$

第一种解法:（求导）
首先，要求解 $\bm A \bm x = 0$ ，我们可以想象当你方程个数多于未知数时，一般就不存在精确解了。

$\bm A \bm x = 0$ 存在精确解的条件是：rank( $\bm A$ ) < $n$

既然不存在精确解，那么我们就可以找一组近似解 $\bm x^+$ 使得: $\bm x^+ = \argmin \|\bm A \bm x\|^2 \tag1$

显然，这种思路是正确，既然我们不能得到精确的解，那么我们就找一组最符合情况的解，也就是使得（1）式最小的 $\bm x$ 。

要想使得（1）式最小，很显然， $\bm x=0$ 是它的解。但是多数情况下，我们对0解没有兴趣，我们想要的是非零解。

那么，对于（1）式，我们就不能任由它肆意的减小，必须给它加一些限制，让它在满足一个条件的情况下获得最小的 $\bm x^+$ 。于是就想到既然不要0解，那么就要求 $\bm x$ 不能为零。于是可以构建一个带约束的最小二乘问题： $\bm x^+ = \argmin \|\bm A \bm x\|^2, \text{subject to} \|\bm x\|^2=1 \tag{2}$

如果 $\bm x$ 是方程 $\bm A\bm x=0$ 的一个解，那么 $k\bm x$ 显然也是( $k$ 是任意标量)，所以就可以限制 $\|\bm x\|=1$

对于（2）式这种带约束的优化问题，可以通过拉格朗日乘数法构建无约束优化：
$L(\bm x,\lambda)=\|\bm A\bm x\|^2+\lambda(1-\|\bm x\|^2)=\bm x^T\bm A^{T} \bm A \bm x+\lambda(1-\bm x^T\bm x) \tag3$

为了获得 $L(\bm x,\lambda)$ 的极值，可以分别对 $\bm x$ 和 $\lambda$ 求偏导数：
$\frac{\partial L(\bm x,\lambda)}{\partial \bm x} = 2\bm A^T\bm A\bm x - 2\lambda \bm x \tag 4$ $\frac{\partial L(\bm x,\lambda)}{\partial \lambda}= 1-\bm x^T\bm x =0\tag 5$

令（4）式为0，得
$\bm A^T\bm A\bm x=\lambda\bm x \tag 6$

通过（6）式可以知道，要想获得 $L(\bm x,\lambda)$ 的极值，就必须使得 $\bm x,\lambda$ 满足（6）。观察不难发现， $\lambda,\bm x$ 分别是 $\bm A^T\bm A$ 的特征值和特征向量。

$\bm A^T \bm A$ 的特征值和特征向量很多，而且都满足（6）式子，那么究竟哪一个特征值和特征向量可以使（2）式取得极小值呢？
$\|\bm A \bm x\|^2 = \bm x^T \bm A^T\bm A \bm x=\bm x^T\lambda\bm x = \lambda\bm x^T\bm x = \lambda \tag 7$

不妨来看一下（7）式的推导，我们已经知道 $\bm A^T \bm A$ 的特征值和特征向量中的一个会使得（2）式子取得极小值，所以（7）式的推导就用上了特征值和特征向量的性质，也就是（6）式： $\bm A^T \bm A \bm x=\lambda\bm x$ ，另外 $\bm x^T \bm x =1$ 。

到目前为止，答案很显然了，最小的 $\lambda$ 的最小值就对应 $\|\bm A\bm x\|^2$ 的最小值。

所以，对于超定方程 $\bm A\bm x =0$ 的解就是 $\bm A^T \bm A$ 最小特征值对应的特征向量。

第二种解法（SVD分解）
对于超定方程组 $\bm A \bm x = 0$ ，依然如前述一样，构建一个有约束的优化问题：
$\argmin\|\bm A \bm x\|,\text{subject to}\|x\|=1 \tag 8$

对 $\bm A$ 进行SVD分解获得：
$\bm A = \bm U\bm D \bm V^T \tag 9$

将（9）式子带入（8）式，得
$\argmin\|\bm A\bm x\|=\argmin\| \bm U\bm D \bm V^T \bm x\|=\argmin\|\bm D\bm V^T\bm x\| \tag{10}$

之所以可以去掉 $\bm U$ ，是利用了正交矩阵的保范性。 $\|\bm U\bm D \bm V^T \bm x\|=\|\bm D\bm V^T\bm x\|，\|\bm V^T\bm x\| = \|\bm x\|$

这里可以令:
$\bm y = \bm V^T\bm x \tag{11}$

则（10）式就等价于：
$\argmin \|\bm D \bm y\| \tag{12}$

那么问题就变成了，在 $\|\bm y\|=1$ 的条件下最小化 $\|\bm D \bm y\|$

矩阵 $\bm D$ 是由 $\bm A$ 矩阵SVD分解的特征值组成的对角矩阵，我们假设对角矩阵的特征值按照降序排列，那么势必最后一个特征值是最小。所以当我们的 $\bm y=(0,0,\cdots,1)$ 时不但满足 $\|\bm y\|=1$ ，而且还可以使得 $\|\bm D\bm y\|$ 最小。

如果你不理解。为什么 $\bm y=(0,0,\cdots,1)$ ，你可以自己拿一个降序排列的对角矩阵试一下

那么，根据（11）式可知：
$\bm x = \bm V\bm y \tag{13}$

而 $\bm V$ 是矩阵 $\bm A$ 的SVD分解之后特征向量组成的矩阵，每一个列都是一个特征向量，根据前面得到的 $\bm y=(0,0,\cdots,1)$ ，那么 $\bm x$ 就是 $\bm V$ 的最后一列。

所以，超定方程 $\bm A\bm x =0$ 的解，就是对 $\bm A$ 进行SVD分解之后的最小特征值对应的特征向量。

在求导的方法中，我们得到的是 $\bm A^T \bm A$ 最小特征值对应的特征向量，这与SVD分解方法道理是一样的，SVD求 $\bm V$ 也就是通过 $\bm A^T\bm A$

2. 非齐次线性方程组 Ax=b

对于
$\bm A \bm x = \bm b$

依然有多种推导方法，这里我就介绍SVD分解的方法吧！

主要是我懒，不想再推导了，哈哈

有了前面的铺垫，问题就变得简单很多了！

我们的目标是最小化：
$\argmin \|\bm A\bm x-\bm b\| \tag{14}$

由于，这里不再存在恒0解，所以就无需加入约束了。

首先对 $\bm A$ 进行SVD分解，然后带入（14）式，得：
$\argmin \|\bm A\bm x-\bm b\| =\argmin \|\bm U\bm D\bm V^T\bm x-\bm b\| \tag{15}$

根据正交矩阵保范性，（15）式可以进一步简化：
$\argmin \|\bm U\bm D\bm V^T\bm x-\bm b\|=\argmin\|\bm D \bm V^T\bm x-\bm U^T\bm b\| \tag{16}$

令 $\bm y=\bm V^T\bm x$ 和 $\bm b' =\bm U^T\bm b$ ，于是（16）式变成了：
$\argmin\|\bm D\bm y-\bm b'\| \tag{17}$

矩阵 $\bm D$ 是 $\bm A$ 矩阵SVD分解之后的特征值对应的对角矩阵。

显然 $\bm D\bm y$ 离 $\bm b'$ 越近，那么（17）式就会越小。而离 $\bm b'$ 最近的向量 $\bm D\bm y=(b'_1,b'_2,\cdots,b'_n, 0,\cdots,0)^T$

这里由于特征值组成的对角矩阵，对角线上不一定全部非零，所以只有非零项才会对(17)式的最小值有影响。

于是就可以通过
$y_i=\frac{b'_i}{d_i},(i=1,\cdots,n)$

这里 $d_i,(1,\cdots,n)$ 是 $A$ 矩阵SVD分解之后的特征值

这里的 $n$ 等于矩阵 $\bm A$ 的秩。

于是就得到了 $\bm y$
$\bm y=(\frac{b'_1}{d_1},\frac{b'_2}{d_2},\cdots,\frac{b'_n}{d_n}) \tag{18}$
则， $\bm A \bm x = \bm b$ 的超定解为：
$\bm x = \bm V\bm y \tag{19}$