VSLAM学习(二) 非线性优化

最新推荐文章于 2022-09-08 11:15:00 发布

青蛙球

最新推荐文章于 2022-09-08 11:15:00 发布

阅读量504

点赞数

分类专栏： # VSLAM 三维场景文章标签：机器学习 slam 矩阵

本文链接：https://blog.csdn.net/littlefrogyq/article/details/110005702

版权

三维场景同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

VSLAM

4 篇文章 2 订阅

订阅专栏

目录
VSLAM学习(一) 三维运动、相机模型、SLAM模型
 VSLAM学习(二) 非线性优化
 VSLAM学习(三) 单目相机位姿估计
 VSLAM学习(四) Bundle Adjustment

一、前置知识点

1.1 最小二乘项

最小二乘是一种求参数优化损失的方法，不了解的可以去看我的另一篇博文：【线性回归与最小二乘】

例如，
多维高斯分布概率密度: $\boldsymbol x\sim N(\boldsymbol \mu,\bold \Sigma)$ ，其中 $\boldsymbol x,\boldsymbol \mu\in \mathbb{R}^n, \bold \Sigma\in \mathbb{R}^{n\times n}$

$f(\boldsymbol x)=\frac{1}{\sqrt{(2\pi)^ndet(\bold \Sigma)}}\mathrm{exp}\Big(-\frac{1}{2}(\boldsymbol x-\boldsymbol \mu)^T\mathbf{\Sigma}^{-1}(\boldsymbol x-\boldsymbol \mu)\Big)$

在优化中一般使用其负对数形式：

$-ln[f(\boldsymbol x)]=\boldsymbol C+\frac{1}{2}(\boldsymbol x-\boldsymbol \mu)^T\mathbf{\Sigma}^{-1}(\boldsymbol x-\boldsymbol \mu)$
其中二次型 $\displaystyle{\frac{1}{2}(\boldsymbol x-\boldsymbol \mu)^T\mathbf{\Sigma}^{-1}(\boldsymbol x-\boldsymbol \mu)}$ 称为马氏距离，就是一种最小二乘项。
要求 $f(\boldsymbol{x})$ 的最大值，即是要求马氏距离的最小值。

1.2 牛顿迭代法

牛顿法是一种在实数域和复数域上近似求解方程的方法，原理大致如下

以最简单的一元函数为例，若要求一元方程 $f (x) = 0$ 的解，可先随机选取一个初值值 $x_0$ ，但显然 $f(x_0)≠0$ ，那么我们对函数 $f (x)$ 关于 $x_0$ 进行一阶泰勒展开：

$f(x_1)≈f(x_0)+f'(x_0)(x_1-x_0)$

我们希望找到 $f(x_1)=0$ ，即

$f(x_0)+f'(x_0)(x_1-x_0)=0$
所以有
$x_1=x_0-\frac{f(x_0)}{f'(x_0)}$
此为一轮迭代
之后可以重复以上方法往下找 $x_2,x_3,···$ ，直到误差允许的范围内为止
过程大致如下图所示

Newton's method

牛顿迭代法我的思考:

假如所求方程为 $x^2-1=0$ ，那么此时的迭代公式为

$x_1=x_0-\frac{f(x_0)}{f'(x_0)}=x_0-\frac{x_0^2-1}{2x_0}=\frac{x_0}{2}+\frac{1}{2x_0}$

但若我取初值 $x_0=0$ ，会导迭代时 $x_1\rightarrow\infty$ ，这样牛顿法是不是就失效了？

二、状态估计问题

回顾滤波器中的贝叶斯法则：

$P(x│z)=\frac{P(z|x)P(x)}{P(z)}\propto P(z|x)P(x)$

现在目标是要去求解状态变量(这里将待求的位姿信息和路标信息全部整合到一个变量中) $\boldsymbol x={\{x_1,···,x_n,y_1,···,y_m\}}$ 的值

由于 $P (x │ z)$ 比较难直接表示，所以要借助两种办法

最大后验估计 (Maximize a Posterior)

$\boldsymbol x_{MAP}^*=\arg\max P(x|z)=\arg\max P(z|x)P(x)$
2) 最大似然估计 (Maximize Likelhood Estimation)

$\boldsymbol x_{MLE}^*=\arg\max P(z|x)$

来求出 $\boldsymbol x$ 的状况

先以最简单的形式来举例，假设噪声都是高斯噪声：
$\boldsymbol v_{k,j}\sim N(\boldsymbol 0,\boldsymbol Q_{k,j})$
根据观测方程
$\boldsymbol z_{k,j}=h(\boldsymbol y_j,\boldsymbol x_k)+\boldsymbol v_{k,j}$
于是
$\boldsymbol z-h(\boldsymbol x)\sim N(0,\boldsymbol Q) \\ or \\ \boldsymbol z\sim N(h(\boldsymbol x),\boldsymbol Q) \\ or \\ \mathrm{P}(\boldsymbol z|\boldsymbol x)=N(h(\boldsymbol x),\boldsymbol Q)$

求解最大似然估计：

$\begin{aligned} \boldsymbol x^*&=\arg\max P(z|x) \\ &=\arg\min\Bigg(\Big(\boldsymbol z-h(\boldsymbol x)\Big)^T\bold Q^{-1}\Big(\boldsymbol z-h(\boldsymbol x)\Big)\Bigg) \\ &=\arg\min(\boldsymbol v^T\bold Q^{-1}\boldsymbol v) \end{aligned}$
说明求后验概率最大化等价于求误差的最小二乘

对于slam模型的两个方程的噪声项(之后记为误差项)

$\begin{aligned} \boldsymbol e_{\boldsymbol u,k}&=\boldsymbol x_k-f(\boldsymbol x_{k-1},\boldsymbol u_k) \\ \boldsymbol e_{\boldsymbol z,k,j}&=\boldsymbol z_{k,j}-h(\boldsymbol y_j,\boldsymbol x_k) \end{aligned}$

对所有误差的马氏距离求和(构造惩罚函数)：

$\min J(\boldsymbol x, \boldsymbol y)=\sum_k\boldsymbol e_{\boldsymbol u,k}^T\boldsymbol R_k^{-1}\boldsymbol e_{\boldsymbol u,k}+\sum_k\sum_j\boldsymbol e_{\boldsymbol z,k,j}^T\boldsymbol Q_{k,j}^{-1}\boldsymbol e_{\boldsymbol z,k,j}$

三、非线性最小二乘

对于求解最小二乘问题的极值相当于也是利用迭代的思想去逼近最优解

$\min \limits_{\boldsymbol x} F(\boldsymbol x)=\frac{1}{2}\|f(\boldsymbol x)\|^2_2$

3.1 一阶梯度法（最速下降法）

将目标函数 $F(\boldsymbol x)$ 在 $x_k$ 附近作一阶泰勒展开

$F(\boldsymbol x+\Delta\boldsymbol x)≈F(\boldsymbol x)+\boldsymbol J(\boldsymbol x)\Delta\boldsymbol x$

其中 $\boldsymbol J$ 为Jacobian矩阵

$\begin{aligned} \boldsymbol J(\boldsymbol x)&=\mathrm D_{\boldsymbol x}F(\boldsymbol x)=\nabla^{\mathrm T}_{\boldsymbol x}F(\boldsymbol x)=\frac{\partial F(\boldsymbol x)}{\partial\boldsymbol x^{\mathrm T}} \\ &=\Big(\frac{\partial F(\boldsymbol x)}{\partial x_1},\frac{\partial F(\boldsymbol x)}{\partial x_2},···,\frac{\partial F(\boldsymbol x)}{\partial x_n}\Big) \end{aligned}$

取梯度反方向，做梯度下降

$\Delta\boldsymbol x^*=-\boldsymbol J^{\mathrm T}(\boldsymbol x)$

这只是确定了方向，一般情况下，还需确定一个步长
记步长为 $\alpha\ge0$ ，根据迭代

$\boldsymbol x_{k+1}=\boldsymbol x_{k}+\alpha\Delta\boldsymbol x^*$

所以目标就是求

$\min\limits_{\alpha}F(\boldsymbol x_{k+1})=\min\limits_{\alpha}F(\boldsymbol x_{k}+\alpha\Delta\boldsymbol x^*)$

可以直接求驻点来解得 $\alpha$

$\varphi(\alpha)=F(\boldsymbol x_{k}+\alpha\Delta\boldsymbol x^*) \\ \varphi'(\alpha)=0$

方法特点：
贪心算法，两次寻路方向正交，产生ZigZag现象（走锯齿路线），导致迭代次数增加

3.2 二阶梯度法（牛顿法）

将目标函数 $F(\boldsymbol x)$ 在 $x$ 附近作二阶泰勒展开

$F(\boldsymbol x+\Delta\boldsymbol x)≈F(\boldsymbol x)+\boldsymbol J(\boldsymbol x)\Delta\boldsymbol x+\frac{1}{2}\Delta\boldsymbol x^{\mathrm T}\boldsymbol H(\boldsymbol x)\Delta\boldsymbol x$

其中 $\boldsymbol H$ 为Hessian矩阵

$\begin{aligned} \boldsymbol H(\boldsymbol x)&=\nabla^2_{\boldsymbol x}F(\boldsymbol x)==\frac{\partial^2 F(\boldsymbol x)}{\partial\boldsymbol x\partial\boldsymbol x^{\mathrm T}} \\ &= \begin{pmatrix} \displaystyle{\frac{\partial^2 F(\boldsymbol x)}{\partial x_1^2}} & \dots & \displaystyle{\frac{\partial^2 F(\boldsymbol x)}{\partial x_1\partial x_n}} \\ \vdots & \ddots & \vdots \\ \displaystyle{\frac{\partial^2 F(\boldsymbol x)}{\partial x_n\partial x_1}} & \dots & \displaystyle{\frac{\partial^2 F(\boldsymbol x)}{\partial x_n^2}} \end{pmatrix} \end{aligned}$

要求函数 $F(\boldsymbol x)$ 的极值，也就是求驻点，即 $F'(\boldsymbol x)=0$ 的点
将上面的二阶泰勒展开式对 $\Delta\boldsymbol x$ 求导，得

$F'(\boldsymbol x+\Delta\boldsymbol x)≈ \boldsymbol J^{\mathrm T}(\boldsymbol x)+\boldsymbol H(\boldsymbol x)\Delta\boldsymbol x$

注意对 $Δ\boldsymbol x$ 求导的意思，也就是 $\boldsymbol x$ 是常数。

令一阶导数等于0，得

$\boldsymbol H\Delta\boldsymbol x=-\boldsymbol J^{\mathrm T}$

若 $H$ 可逆，则可得到牛顿迭代公式为

$\boldsymbol x_{k+1}=\boldsymbol x_k-\boldsymbol H^{-1}\boldsymbol J^{\mathrm T}$

额外补充知识点
　对于一阶梯度 $\boldsymbol J=0$ 的点，
　若Hessian矩阵 $\boldsymbol H$ 是正定的(所有特征值都是正的)，则该临界点是局部极小点
　若Hessian矩阵 $\boldsymbol H$ 是负定的(所有特征值都是负的)，则该临界点是局部极大点
　若Hessian矩阵 $\boldsymbol H$ 是不定的(特征值有正有负)，则该临界点是鞍点

方法缺点：
求解Hessian矩阵 $\boldsymbol H$ 过于复杂

3.3 高斯-牛顿法

牛顿法是直接对二范数 $\|f(\boldsymbol x+\Delta\boldsymbol x)\|^2_2$ 进行泰勒展开
而高斯-牛顿法是先对函数作泰勒展开，之后再求二范数

$f(\boldsymbol x+\Delta\boldsymbol x)≈f(\boldsymbol x)+\boldsymbol J(\boldsymbol x)\Delta\boldsymbol x \\ \Delta\boldsymbol x^*=\arg\min\limits_{\Delta\boldsymbol x}\frac{1}{2}\Big\|f(\boldsymbol x)+\boldsymbol J(\boldsymbol x)\Delta\boldsymbol x\Big\|^2$

展开待优化式：

$\begin{aligned} \frac{1}{2}\Big\|f(\boldsymbol x)+\boldsymbol J\Delta\boldsymbol x\Big\|^2&=\frac{1}{2}\Big(f(\boldsymbol x)+\boldsymbol J\Delta\boldsymbol x\Big)^{\mathrm T}\Big(f(\boldsymbol x)+\boldsymbol J\Delta\boldsymbol x\Big) \\ &=\frac{1}{2}\Big(\|f(\boldsymbol x)\|^2_2+2f^{\mathrm T}(\boldsymbol x)\boldsymbol J\Delta\boldsymbol x+\Delta\boldsymbol x^{\mathrm T}\boldsymbol J^{\mathrm T}\boldsymbol J\Delta\boldsymbol x\Big) \end{aligned}$

求导求驻点

$\boldsymbol J^{\mathrm T}f+\boldsymbol J^{\mathrm T}\boldsymbol J\Delta\boldsymbol x=0 \\ \boldsymbol J^{\mathrm T}\boldsymbol J\Delta\boldsymbol x=-\boldsymbol Jf$

记 $\boldsymbol J^{\mathrm T}\boldsymbol J=\boldsymbol H,-\boldsymbol J^{\mathrm T}f=\boldsymbol g$ ，即得到增量方程

$\boldsymbol H\Delta\boldsymbol x=\boldsymbol g$

计算 $\boldsymbol{J}^{\mathrm T}\boldsymbol{J}$ 比牛顿法计算Hessian矩阵要容易的多，但是 $\boldsymbol{J}^{\mathrm T}\boldsymbol{J}$ 是半正定的，不一定可逆

3.4 Levenberg-Marquardt方法

上面两种优化都属于线性搜索(Line Search)方式
而这里的LM方法属于置信区域(Trust Region)模式

记

$\rho = \frac{f(\boldsymbol x+\Delta\boldsymbol x)-f(\boldsymbol x)}{\boldsymbol J(x)\Delta\boldsymbol x}$

即实际下降与一阶近似下降的比值

比值越大，说明一阶近似越可靠，还可加大近似范围
比值越小，说明一阶近似越不可靠，需要减小近似范围

LM方法确定迭代增量的时候，将增量约束与此范围之内：
$\min\limits_{\Delta\boldsymbol x}\frac{1}{2}\|f(\boldsymbol x+\boldsymbol J(\boldsymbol x)\Delta\boldsymbol x)\|^2 , \quad\quad\quad s.t.\|\boldsymbol D\Delta\boldsymbol x\|^2≤\mu$
其中 $\mu$ 是信赖区域半径（初始随机取值）， $\boldsymbol D$ 是区域形状

确定增量前，先要计算 $\rho$

若 $\displaystyle{\rho>\frac{3}{4}}$ ，则放大范围， $\mu=2\mu$
若 $\displaystyle{\rho<\frac{1}{4}}$ ，则缩小范围， $\displaystyle{\mu=\frac{1}{2}\mu}$

对于区域形状 $\boldsymbol D$ ，Levenberg和Marquardt提出的有所不同

Levenberg提出 $\boldsymbol D=\boldsymbol I$ ，相当于把 $\Delta\boldsymbol x$ 约束在一个球中
Marquardt提出 $\boldsymbol D$ 取成非负对角阵，通常使用 $\boldsymbol J^{\mathrm T}\boldsymbol J$ 对角元素的平方根，相当于把 $\Delta\boldsymbol x$ 约束在一个椭球中

所以整个问题相当于求解一个条件极值
可以使用拉格朗日乘数法

$\min\limits_{\Delta\boldsymbol x}\frac{1}{2}\Big(\|f(\boldsymbol x+\boldsymbol J(\boldsymbol x)\Delta\boldsymbol x)\|^2+\lambda\|\boldsymbol D\Delta\boldsymbol x\|^2\Big)$

还是求解增量方程
有

$\big(\boldsymbol J^{\mathrm T}\boldsymbol J+\lambda\boldsymbol D^{\mathrm T}\boldsymbol D\big)\Delta\boldsymbol x=-\boldsymbol Jf \\ or \\ \big(\boldsymbol H+\lambda\boldsymbol D^{\mathrm T}\boldsymbol D\big)\Delta\boldsymbol x=\boldsymbol g$

可以看出，就是比G-N方法多了一个 $\lambda\boldsymbol D^{\mathrm T}\boldsymbol D$

以Levenberg为例( $\boldsymbol D=\boldsymbol I$ )
增量方程即为

$\big(\boldsymbol H+\lambda\boldsymbol I\big)\Delta\boldsymbol x=\boldsymbol g$
这相当于给矩阵 $\boldsymbol H$ 增加了它的正定性，并且：

当 $\lambda$ 很小的时候， $\boldsymbol H$ 占主体地位，LM方法接近高斯牛顿法
当 $\lambda$ 很大的时候， $\lambda\boldsymbol I$ 占主体地位，LM方法接近于最速下降法

所以可以将LM方法看做是一阶法与二阶法的一个混合折中

青蛙球

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
VSLAM学习(二) 非线性优化

一、前置知识点1.1 SLAM模型xk\boldsymbol x_kxk是指kkk时刻的机器人位姿。比如相机位姿，可以使用SE(3)SE(3)SE(3)来描述。zk,j\boldsymbol z_{k,j}zk,j是指kkk时刻对第jjj个路标点的观测值{xk=f(xk−1,uk)+wk         ⋅⋅⋅运动方程zk,j=h(yj,xk)+vk,j⋅⋅⋅观测方程\left \{\begin{ali
复制链接

扫一扫