史上最简SLAM零基础解读(3) - 白话来说SVD奇异值分解(2)→超定方程求解,最小奇异值特征为最优解

本文链接：https://blog.csdn.net/weixin_43013761/article/details/123864903

本人讲解关于slam一系列文章汇总链接:史上最全slam从零开始
有兴趣的朋友可以加微信 17575010159 相互讨论技术 - 文末公众号也可关注

一、前言

在讲解超定方程求解之前，以及为什么最小奇异值对应的特征特征向量为最优解之前，我们需要知道以下知识：矩阵的特征向量，特征值，EVD(特征分解)，SVD(奇异值分解)等相关知识。这些内容本人在上一篇博客中，有特别详细的讲解，链接如下：史上最简SLAM零基础解读(3) - 白话来说SVD奇异值分解(1)→原理推导与奇异值求解举例。请认真仔细的阅读这篇博客，阅读以及弄明白之后，就可以思考接下来的问题了。

二、适定、欠定、超定方程

在工程上，很多问题最终都会转换成 $A_{(m,n)}\vec x_{(n,1)}=\vec b_{(m,1)}$ 方程的求解。其中 $A_{(m,n)}$ 表示 $m\times n$ 的矩阵； $x_{(n,1)}$ 表示 $n$ 个元素的列向量； $b_{(m,1)}$ 表示 $m$ 个元素的列向量。当然 $x_{(n,1)}$ 与 $b_{(m,1)}$ 也可当作矩阵来看待。 $\tag{1} \color{blue} A_{(m,n)}\vec x_{(n,1)}=\vec b_{(m,1)}$

	若方程(1)至少有一个精确解，称为一致方程。
	若方程(1)无任何精确解，称为非一致方程。

根据矩阵 $A_{(m,n)}$ 秩的大小，矩阵方程又可以分成以下三种类型：

$\color{blue} (1)适定方程→$ : 若 $m = n$ , 并且 ${rank}(A)=n$ , 即矩阵 $A$ 非奇异, 则称矩阵方程 ${\vec x}={\vec b}$ 为适定 (well-determined) 方程。

$\color{blue} (2)欠定方程→$ : 若独立的方程个数小于独立的末知参数个数, 则称矩阵方程 $\vec x}={\vec b}$ 为欠定 (under-determined) 方程。

$\color{blue} (3)超定方程→$ : 若独立的方程个数大于独立的末知参数个数, 则称矩阵方程 $\vec x}={\vec b}$ 为超定 (over-determined) 方程。

下面是术语 “适定”、“欠定” 和 “超定” 的含义。
适定的双层含义 方程组的解是唯一的; 独立的方程个数与独立末知参数的个数相同, 正好可以唯一地确定该方程组的解。适定方程 $\vec x}={\vec b}$ 的唯一解由 ${\vec x}={A}^{-1} {\vec b}$ 给出。适定方程为一致方程。

欠定的含义 独立的方程个数比独立的末知参数的个数少, 意味着方程个数不足于确定方程组的唯一解。事实上, 这样的方程组存在无穷多组解 ${\vec x}$ 。欠定方程为一致方程。

超定的含义 独立的方程个数超过独立的末知参数的个数, 对于确定方程组的唯一解显得方程过剩。因此, 超定方程 $\vec x}={\vec b}$ 没有使得方程组严格满足的精确解 ${\vec x}$ 。超定方程为非一致方程。

三、超定方程求解

在计算机视觉或者说 slam 中，经常遇到超定方程求解的情形。比如三角化地图点，pnp，以及 Fundamental 与 Homography 矩阵的求解。那么我们就来介绍一下超定方程的求解。通过前面的介绍，我们已经知道超定方程没有精确解的，那么只能去求他的最优解。这个时候我们就需要引入最小二乘法了(关于最小二乘法的相关知识大家可以百度一下)。
$\tag{1} \color{blue} A_{(m,n)}\vec x_{(n,1)}=\vec b_{(m,1)}$ 这里我们先讨论一种情况，即 $\vec b_{(m,1)}=0$ , 也就是求解如下超定方程(m>n,也就是行大于列)：
$\tag{2} \color{blue} A_{(m,n)}\vec x_{(n,1)}=0$
很显然，上述公式中存在一个0解，但是我们工程实际应用中都是需要求非零解，为了求非零解，我们对 $A$ 加上一个约束 $||\vec x||^2=1$ 。也就是限制 $\vec x$ 的长度为1，并构建成一个带约束的最小二乘问题： $\tag{3} \color{blue} \hat{{x}}=\arg \min \|{A} {\vec x}\|^{2}, \text { subject to }\|{\vec x}\|^{2}=1$ 这是一个带约束的最小二乘问题，我们把拉格朗日搬出来： $\tag{4} \color{blue} \begin{aligned} L({\vec x}, \lambda) &=\|{A} {\vec x}\|^{2}+\lambda\left(1-\|{\vec x}\|^{2}\right) \\ &={\vec x}^{T} {A}^{T} {A} {\vec x}+\lambda\left(1-{\vec x}^{T} {\vec x}\right) \end{aligned}$ 为了求极值，我们分别对 $A$ 和 ${\lambda}$ 求偏导数，令为0:
$\tag{5} \color{blue} \frac{\partial L({\vec x}, \lambda)}{\partial {\vec x}}=2 {A}^{T} {A} {\vec x}-2 \lambda {\vec x}=0$ $\tag{6} \color{blue} \frac{\partial L({\vec x}, \lambda)}{\partial \lambda}=1-{\vec x}^{T} {\vec x}=0$ 把(5)式整理一下： $\tag{7} \color{blue} \left({A}^{T} {A}-\lambda {I}\right) {\vec x}=0$ $\tag{8} \color{blue} {A}^{T} {A} {\vec x}=\lambda {\vec x}$ 看到其上的公式(8), 根据上一篇博客我们讲解的内容，可以看出 ${\lambda}$ 和 $\vec x$ 分别是 $A^T A$ 的特征值和特征向量。也就是说超定方程 $A_{(m,n)}\vec x_{(n,1)}=0$ 的解就是 ${A}^{T} {A}$ 对应的特征向量，那么问题来了。这么多个特征向量，我们应该选择那一个呢?我们展开 $Ax∥^2$ 看一下(利用(3)式中的 $x∥^2=1$ )： $\tag{9} \color{blue} \|{A} {\vec x}\|^{2}={\vec x}^{T} {A}^{T} {A} {\vec x}={\vec x}^{T} \lambda {\vec x}=\lambda {x}^{T} {\vec x}=\lambda$
也就是说，我们想要 $Ax∥^2$ 最小，就需要 $λ$ 最小。对于 SVD 奇异值分解公式如下(上一篇博客有推导) $A_{m\times n}=U_{m\times m}\Sigma_{m\times n}V^T_{n \times n}$ 其上的 $\Sigma_{m\times n}$ 是对角矩阵，对角线元素称为奇异值，一般来说奇异值是按照从大到小的顺序降序排列。因为每一个奇异值都是一个残差项，因此最后一个奇异值最小，其含义是最优的残差。因此其对用的奇异值向量就是最优解。