矩阵（二）：为什么Ax=0的解为最小奇异值对应的向量？

雨luo凡城

已于 2022-09-15 22:51:53 修改

阅读量3.6k

点赞数 16

分类专栏：矩阵 SLAM从小白到大黑文章标签：矩阵线性代数机器学习

于 2021-05-22 21:26:55 首次发布

本文链接：https://blog.csdn.net/jdy_lyy/article/details/117171934

版权

SLAM从小白到大黑同时被 2 个专栏收录

20 篇文章

订阅专栏

矩阵

3 篇文章

订阅专栏

本文探讨了如何解决工程中的超定方程问题，即求解Ax=0的非零解。通过引入约束使x的长度为1，形成带约束的最小二乘问题。通过拉格朗日乘子法，将问题转化为寻找矩阵ATA的最小特征值及其对应的特征向量。此外，还介绍了SVD分解，当A为8*9矩阵时，其最小奇异值对应的奇异向量即为最优解。SVD分解中，U是左奇异向量矩阵，V是右奇异向量矩阵，D是对角奇异值矩阵，奇异值按降序排列，最小奇异值对应的最佳残差意义重大。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考资料

解超定方程 Ax=0

1 📖 解超定方程

工程中很多问题会归结为求超定方程 $\mathbf{A x}=\mathbf{0}$ ， $\mathbf{A}$ 是 m*n的矩阵，且m>n 。如SLAM中三角化地图点，PnP等一些问题都是求解这个方程。

很显然，这个方程有一个0解，但这不是我们想要的，我们实际想求非零解。

为了求非零解，我们对 $\mathbf{A}$ 加上一个约束 $\|\mathbf{x}\|^{2}=1$ 。也就是限制 $\mathbf{x}$ 的长度为1，并构建成一个带约束的最小二乘问题：
$\hat{\mathbf{x}}=\arg \min \|\mathbf{A} \mathbf{x}\|^{2}, \text { subject to }\|\mathbf{x}\|^{2}=1 \space\space(1)$
这是一个带约束的最小二乘问题，我们把拉格朗日搬出来：
$\begin{aligned} L(\mathbf{x}, \lambda) &=\|\mathbf{A} \mathbf{x}\|^{2}+\lambda\left(1-\|\mathbf{x}\|^{2}\right) \\ &=\mathbf{x}^{T} \mathbf{A}^{T} \mathbf{A} \mathbf{x}+\lambda\left(1-\mathbf{x}^{T} \mathbf{x}\right) \end{aligned} \space\space(2)$
为了求极值，我们分别对 $\mathbf{A}$ 和 $\mathbf{\lambda}$ 求偏导数，令为0
$\begin{aligned} \frac{\partial L(\mathbf{x}, \lambda)}{\partial \mathbf{x}}=2 \mathbf{A}^{T} \mathbf{A} \mathbf{x}-2 \lambda \mathbf{x}=0 \end{aligned} \space\space(3) \\ \begin{aligned} \frac{\partial L(\mathbf{x}, \lambda)}{\partial \lambda}=1-\mathbf{x}^{T} \mathbf{x}=0 \end{aligned} \space\space(4)$
把(3)式整理一下：
$\begin{array}{r} \left(\mathbf{A}^{T} \mathbf{A}-\lambda \mathbf{I}\right) \mathbf{x}=0 \space\space(5) \\ \mathbf{A}^{T} \mathbf{A} \mathbf{x}=\lambda \mathbf{x} \space\space(6) \end{array}$
注意：可以看出 $\mathbf{\lambda}$ 和 $\mathbf{x}$ 分别是 $\mathbf{A}^{T}\mathbf{A}$ 的特征值和特征向量。也就是说(1)式的解，就是这些特征向量中的一个。

问题来了，那么多的特征向量，应该选择哪个作为解呢？我们展开 $\|\mathbf{A} \mathbf{x}\|^{2}$ 看一下：
$\|\mathbf{A} \mathbf{x}\|^{2}=\mathbf{x}^{T} \mathbf{A}^{T} \mathbf{A} \mathbf{x}=\mathbf{x}^{T} \lambda \mathbf{x}=\lambda \mathbf{x}^{T} \mathbf{x}=\lambda \space\space(7)$

上面（7）推导利用（6）和 $\|\mathbf{x}\|^{2}=1$

也就是说，我们想要 $\|\mathbf{A} \mathbf{x}\|^{2}$ 最小，就需要 $\lambda$ 最小。

那方程（1）的非零解就是 $\mathbf{A}^{T}\mathbf{A}$ 的最小特征值和对应的特征向量

2 📖 关于SVD分解

假设 $A$ 为8*9的矩阵，则SVD分解结果为
$A=U D V^{T}$

U：左奇异向量，为8*8的正交矩阵
V：右奇异向量，为9*9的正交矩阵，其转置为 $V^T$
D：一个8*9的对角矩阵，除了对角线元素均为0，对角线元素称为奇异值，一般来说奇异值是按照从大到小的顺序降序排列。因为每一个奇异值都是一个残差项，因此最后一个奇异值最小，其含义是最优的残差。因此其对用的奇异值向量就是最优解。这一部分可以参考我的关于SVD的笔记。