第六讲——非线性优化

最新推荐文章于 2024-08-19 23:43:33 发布

Z-H-J

最新推荐文章于 2024-08-19 23:43:33 发布

阅读量139

点赞数

分类专栏：视觉SLAM十四讲学习笔记文章标签：概率论自动驾驶机器学习

本文链接：https://blog.csdn.net/weixin_43008154/article/details/120430488

版权

视觉SLAM十四讲学习笔记专栏收录该内容

10 篇文章 7 订阅

订阅专栏

本章说

题头诗：

重走SLAM路，之前学的全忘光
今日重拾起，痛定思痛写总结
长征路漫漫，君当切实行

第六讲主要理解位姿和坐标点估计问题如何转换成一个最小二乘问题：即该问题为什么是一个最大后验概率问题，如何转化为极大似然估计问题，又如何转化为最小二乘问题；其次，理解最小二乘法问题的迭代求解方法：首先理解牛顿法的含义，然后理解其局限性以及针对局限性提出的高斯-牛顿法和更进一步的列文伯格-马夸尔特方法。

讲内容

首先，先说说为什么位姿和坐标点估计问题可以转换成一个最小二乘问题

要理清以上疑问，可以遵循以下思路：

为什么位姿与坐标点估计问题是一个最大后验概率问题？其为什么可以转换成极大似然估计问题？
极大似然估计问题怎么转换成的最小二乘问题？

先说第一个，我们知道，在SLAM问题中，我们已知的输入是 $u$ 与 $z$ ，即位姿增量和观测结果，而我们要求的是 $x$ 和 $y$ ，即实际位姿和实际坐标点位置。因此该问题可概述为一个最大后验概率问题 $P (x, y ∣ u, z)$ 。而根据运动方程和观测方程 $\left\{ \begin{aligned} x_k & = & \ f(x_{k-1},u_k)+w_k\\ z_{kj} & = & \ h(y_j,x_k)+v_{kj}\\ \end{aligned} \right.$
可以发现已知输入求实际的最大后验概率是很难的，因为我们无法预知该过程的误差分布。但是根据一般经验，我们知道从实际到输入过程的误差大多数服从高斯分布，这就为我们带来了解题的思路，那就是将最大后验概率问题转换成极大似然估计问题，从而利用起已知的误差分布。

根据贝叶斯公式，求最大后验概率即求似然估计与先验概率乘积的最大：在这里插入图片描述
忽略先验概率就转换成了求极大似然估计：

综上，我们完成了第一步的理解，即从实际问题->最大后验估计->极大似然估计

第二点，极大似然估计怎么转换成最小二乘问题：

我们从观测方程入手，已知 $z_{k,j}=h(y_j,x_k)+v_{k,j}$ ，又知 $v_{k,j}\sim N(0,Q_{k,j})$ ，所以 $z_{k,j}\sim N(h(y_j,x_k),Q_{k,j})$ 。极大似然估计即是让高斯分布的概率密度函数最大，我们对概率密度函数取负对数，可得高斯分布下求极大似然估计等价于最小化如下式子：
在这里插入图片描述
故而可带入 $z_{k,j}$ 的分布，得到如下表达：

同理推导运动方程下的极大似然表达：

已知 $x_k=f(x_{k-1},u_k)+w_k$ ，又知 $w_k\sim N(0,R_k)$ ，可得 $f(x_{k-1},u_k)\sim ( x_k,R_k)$ 。同样的，写出高斯分布并求概率的极大值，通过负对数将求极大转换成求极小，可以推得 $x_k)^*=arg min((x_k-f(x_{k-1},u_k))^TR_k^{-1}(x_k-f(x_{k-1},u_k))$ 。
因此，我们可设如下误差项：
在这里插入图片描述
通过误差项，我们可以描述一个批量内（1~k）总的极大似然估计的等价最小化式子：

由此，我们得到了位姿与坐标点估计问题的最小二乘表达。

然后，说说最小二乘法问题的迭代求解方法

最小二乘问题的一般形式为： $F(x)=\frac{1}{2}||f(x)||_2^2$ ，其中由于x可以是数、向量或者矩阵，所以高斯分布下的位姿与坐标点估计问题是可以写成这样的标准形式的

对于函数表达复杂的最小二乘问题，一般采取迭代求解的方法，即先将 $F (x)$ 泰勒展开，得到展开式如下： $F(x+\Delta x) \approx F(x)+\textbf{J}^T\Delta x+\Delta x^T\textbf{H}\Delta x$ ，根据保留一阶梯度还是二阶梯度，可以分成最速下降法和牛顿法。最速下降法取 $\Delta x=-\textbf{J}$ ，这可以保证每次均沿梯度下降，但为了迭代效果一般会加以步长限制。牛顿法保留二阶梯度，即 $\Delta x^* =argmin( F(x)+\textbf{J}^T\Delta x+\Delta x^T\textbf{H}\Delta x)$ ，我们可在该式中对 $\Delta x$ 求导，导数取零可以求得使该式最小的 $\Delta x$ 值，即求解方程 $\textbf{H}\Delta x=-\textbf{J}$

由于对 $F (x)$ 求一阶梯度和二阶梯度的行为是复杂的，特别是在最小二乘问题中，这意味着一阶梯度是一定会包含自变量 $x$ 在内。因此，我们需要考虑其他的近似算法，消除自变量 $x$ 在梯度中的影响。

第一种近似算法是高斯-牛顿法，它对 $f (x)$ 做一阶泰勒展开，得 $f(x+\Delta x)\approx f(x)+\textbf{J}^T\Delta x$ ，再写出 $F(x+\Delta x)=\frac{1}{2}||f(x)+\textbf{J}^T\Delta x||_2^2$ ，对该式展开，展开结果为：
在这里插入图片描述
上式求 $\Delta x$ 的导数，并取导数为0，即求取 $\Delta x^* =argmin( F(x+\Delta x))$ ，得到方程 $\textbf{J}(x)\textbf{J}(x)^T\Delta x=-\textbf{J}(x)f(x)$ ，左式中 $\textbf{J}(x)\textbf{J}(x)^T$ 写做 $\textbf{H}$ ，右式写做 $\textbf{g}$ ，完成了利用 $\textbf{J}(x)\textbf{J}(x)^T$ 替换海塞矩阵的目的（且保证了雅各比矩阵中无自变量，即形式简单）

第二种近似算法是列文伯格-马夸尔特方法，它针对高斯-牛顿法没有考察近似程度的不足，进行了一定的处理和修改，核心思想是利用如下指标 $\rho=\frac{f(x+ \Delta x-f(x))}{\textbf{J}(x)^T\Delta x}$ 去衡量近似函数与实际取值的差异大小，如果 $\rho$ 接近于1，那说明近似与实际接近，这时候的 $\textbf{H}$ 效果好，在计算 $\Delta x^*$ 时占比大；如果 $\rho$ 远小于1，那说明近似比较差，需要缩小近似范围；如果 $\rho$ 远大于1，说明近似还不足，可以扩大近似范围

具体的做法是将方程 $F(x+\Delta x)=\frac{1}{2}||f(x)+\textbf{J}^T\Delta x||_2^2$ 变为一个有约束的最小二乘问题，约束为 $||\textbf{D}\Delta x||^2\leq\mu$ ，其中 $\mu$ 是一个参数，初始给定且每次迭代变化，变化规则为：当 $\rho$ 接近于1， $\mu=\mu$ ；当 $\rho$ 远小于1， $\mu=0.5\mu$ ；当 $\rho$ 远大于1， $\mu=2\mu$ 。

那么如何求解有约束的最小二乘问题每次迭代的 $\Delta x^*$ ？将方程化为拉格朗日方程形式： $F(x+\Delta x)=\frac{1}{2}||f(x)+\textbf{J}^T\Delta x||_2^2+\frac{\lambda}{2}(||\textbf{D}\Delta x||^2-\mu)$ ，再对上式求 $\Delta x$ 与 $\lambda$ 的导数，并取导数为0，可得方程组
$\left\{ \begin{aligned} (\textbf{H}+\lambda \textbf{D}^T\textbf{D})\Delta x=\textbf{g}\\ ||\textbf{D}\Delta x||^2-\mu=0\\ \end{aligned} \right.$

如果该方程组有解，那么对应的 $\Delta x$ 就是此次增量；而如果方程组无解，那我们就应该把 $\lambda$ 看成一个惩罚项，若发现信赖域条件不满足，或者目标函数增加，就增加 $\lambda$ 的权重，反之减小 $\lambda$ 的权重，并通过式 $(\textbf{H}+\lambda \textbf{D}^T\textbf{D})\Delta x=\textbf{g}$ 给出此次增量。直观上看，当 $\lambda$ 较大的时候， $\textbf{D}^T\textbf{D}$ 起主要作用，特别当 $\textbf{D}$ 取单位矩阵时（表示限定为一个球内），此时列马方法接近最速下降法， $\Delta x \approx \textbf{g}$ ；反之当 $\lambda$ 较小的时候， $\textbf{H}$ 起主要作用，列马方法接近高斯-牛顿法。 $\textbf{D}$ 的取值一般还可取成非负数对角阵——实际中通常用 $\textbf{J}^T\textbf{J}$ 的对角元素平方根，使得在梯度小的维度上约束范围更大一些（梯度小，对角元素小，椭球的轴更长，约束范围更大）

Z-H-J

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第六讲——非线性优化

本章说题头诗：重走SLAM路，之前学的全忘光今日重拾起，痛定思痛写总结长征路漫漫，君当切实行第五讲主要理解针孔相机模型的成像流程，内参定义，外参定义以及畸变过程；顺带理解双目相机成像原理，RGB-D相机介绍以及图像在代码中的表示方法；最后，重点理解相机标定方法。讲内容首先，先说说为什么位姿和坐标点估计问题可以转换成一个最小二乘问题：要理清以上疑问，可以遵循以下思路：为什么位姿与坐标点估计问题是一个最大后验概率问题？其为什么可以转换成极大似然估计问题？极大
复制链接

扫一扫

专栏目录