第六讲:非线性优化

最新推荐文章于 2022-08-22 21:04:23 发布

wyc-

最新推荐文章于 2022-08-22 21:04:23 发布

阅读量456

点赞数

分类专栏： slam14笔记

本文链接：https://blog.csdn.net/qq_28120673/article/details/102701576

版权

slam14笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第六讲:非线性优化

文章目录

第六讲:非线性优化

在前面几章,我们介绍了经典 SLAM 模型的运动方程和观测方程。现在我们已经知道,方程中的位姿可以由变换矩阵来描述,然后用李代数进行优化。然而,由于噪声的存在,运动方程和观测方程的等式必定不是精确成立的。

1. 状态估计问题

1.1. 最大后验与最大似然

第二讲中介绍过经典的slam模型由一个运动方程和一个观测方程构成:
$\begin{cases} x_k = f(x_{k-1},u_k,w_k)+w_k \qquad w_k 为运动方程噪声\\ z_{k,j}=h(y_j,x_k,v_{k,j})-v_{k,j} \qquad v_{k,j}为观测方程噪声 \end{cases}$

通常假设两个噪声满足均匀高斯分布:
$w_k \sim N(0,R_k), \quad v_k \sim N(0,Q_{k,j})$

从概率学的角度看,在非线性优化中把所有的待估计变量放在一个状态变量中:
$x=\{x_1,\cdots,x_N,y_1,\cdots,y_M\}$

现在对机器人的状态估计,就是已知输入数据 $u$ ,和观测数据 $z$ 的条件下, 求计算机状态 $x$ 的条件概率分布:
$P (x ∣ z, u)$

当没有测量数据,即只考虑z时,相当于估计 $P (x ∣ z)$ 的条件概率分布.

如果忽略图像在时间上的联系,把他们看着一堆彼此没有关系的图片,该问题称为Sructure from Motion(sfm),即如何从许多图像中重建三维结构.

SLAM可以看做是图像具有时间先后顺序,需要实时求解一个sfm问题.

为了估计状态变量的条件分布,利用贝叶斯公式:
$\frac{P(z|x)P(x)}{P(z)}$

P(x|z) 为后验概率
P(z|x) 为似然
P(x) 为先验

直接求后验分布是困难的, 但是求一个状态最优估计,使得该状态下后验概率最大化,则可进行:
$x^*_{MAP} = \arg\max P(x|z) = \argmax P(z|x)P(x)$
$x^*=\argmax f(x)$ 表示当x=x^*时,f(x)取得最大值.

求解最大后验概率 相当于最大化似然和先验的乘积

如果不知道机器人的位姿大概在什么位置,可以求解x的最大释然估计:
$x^*_{MAP} = \argmax P(z|x)$

似然: 指在现在的位姿下可能产生怎样的观测数据.
最大似然估计: 在什么样的状态下最可能产生观测到的数据.

1.2. 最小二乘的引出

对于一次观测:
$z_{k,j} = h(y_j,x_k) +v_{k,j}$

由于假设了噪声项 $u_k \sim N(0,Q_{k,j})$ ,所以观测数据的条件概率为:
$P(z_{j,k}|x_k,y_j) = N(h(y_j,x_k),Q_{k,j})$

上式依然是一个高斯分布,为了计算使它最大化的 $想x_k(位置),y_i(路标)$ ,使用 最小负对数来求高斯分布的最大似然.

高斯分布 $\sim N(\mu, \sum)$ ,它的概率密度展开形式为:
$\frac{1}{\sqrt {(2\pi)^N \det(\sum) }} \exp(-\frac{(x- \mu)^T}{2\sum{(x-\mu)}})$

对其取负对数

$-\ln(P(x)) = \frac{ln((2\pi)^N\det(\sum))}{2} + \frac{(x- \mu)^T}{2\sum{(x-\mu)}}$

$\sum$ 表示协方差矩阵
$\det$ 表示求行列式的值

对原分布求最大化相当于对负对数求最小化. $\cdots$

定义数据和估计值之间的误差.
$e_{v,k} = x_k - f(x_{k-1},u_k) \newline e_{y,j,k} = z_{k,j} -h(x_k,y_j)$

求误差平方和:
$\sum_k {e_{v,k}^TR_k^{-1}e_{v,k}} + \sum_k\sum_j{ e^T_{y,k,j}Q^{-1}_{k.j}e_{y,k,j} }$

这样得到了总体意义下的最小二乘问题. 它的最优解等价于状态的最大似然估计.

由于噪声的存在,我们把估计的轨迹带入SLAM的运动,观测方程时,他们并不会完美成立. 我们对状态估计进行微调,使得整体误差下降一些.一般会得到一个极小值. 这就是一个典型的非线性优化过程.

1.3. 非线性最小二乘法

一个简单的最小二乘问题:
$\min \frac{1}{2}||f(x)||_2^2$

对x求导可以得到极值:
$\frac{d(\frac{1}{2}||f(x)||^2_2)}{dx} =0$

如果 $f (x)$ 比较复杂,那么用求导的方法是比较困难的.

对于不方便直接求解的最小二乘问题,可以用迭代的方式:

给定某个初始值 $x_0$
对于第 $k$ 次迭代,寻找一个增量 $\Delta x_k$ , 使得 $||f(x_k+\Delta x_k)||^2_2$ 达到最小值
若 $\Delta x_k$ 足够小,则停止.
否则令 $x_{k+1} = x_k +\Delta x_k$ ,返回第二步

关键问题是增量 $\Delta x_k$ 如何确定.

在slam中有两类方法.下面将介绍这两种方法.

1.4. 一阶和二阶梯度法

将目标函数在 $x$ 附近进行泰勒展开:
$\|f(x+\Delta x)\|^2_2 \approx \|f(x)\|^2_2 + J(x) \Delta x + \frac{1}{2} \Delta x^TH \Delta x$

$J$ 是 $f(x)\|^2_2$ 关于x的导数, 而H则是二阶导数.

如果保留一阶梯度,那么增量的解为:
$\Delta x^* = -J^T(x)$

如果保留二阶梯度信息,增量方程为:
$\Delta x^* = \argmin \|f(x)\|^2_2 + J(x)\Delta x + \frac{1}{2}\Delta x^TH \Delta x$

求右侧关于 $\Delta x$ 的导数并令它为0, 就得到了增量的解:
$\Delta x = -J^T$

该方法又称为牛顿法. 牛顿法需要计算目标函数的H矩阵,我们通常避免H的计算,接下来的方法即解决改问题.

1.5. 牛顿高斯法

思想: 将 $非 (x)$ 进行泰勒展开.
$+\Delta x) \approx f(x) +J(x) \Delta x$

$J (x)$ 是 $f (x)$ 关于x的导数.

当前目前:寻找下降矢量: $\Delta x$ , 使得 $\|f(x+ \Delta x)\|^2_2$ 达到最小.
$\Delta x^* = \argmin \frac{1}{2}\|f(x)+J(x)\Delta x\|^2$

展开平方项并对 $\Delta x$ 求导,得:
$J(x)^TJ(x)\Delta x = - J(x)^Tf(x)$

这是一个线性方程, 被称为:增量方程或高斯牛顿方程或正规方程.

定义:

$J(x)^TJ(x)$ 为 $H$
J(x)^Tf(x) 为 $g$

上式可记为:
$\Delta x = g$

求解增量方程是整个优化过程的核心所在.

高斯牛顿法的步骤:

给定初始值 $x_0$
对于第k次迭代, 求出当前雅可比矩阵 $J(x_k)$ 和误差 $f(x_k)$
求解增量方程: $\Delta x_k = g$
若 $\Delta x_k$ 足够小, 则停止. 否则,令 $x_{k+1} = x_k +\Delta x_k$ ,返回第二步

高斯牛顿法的缺点:

可能出现 $J^TJ$ 为奇异矩阵或者病态
如果求出的 $\Delta x$ 过大,也会导致算法不稳定.

在非线性优化里,相当多的方法都是高斯牛顿法的变种.

1.6. 列文伯格-马夸尔特方法

高是牛顿法中采用的近似二阶泰勒展开只能在展开点附近有较好的效果, 所以我们可以给 $\Delta x$ 一个信赖区域.这种方法被称为信赖区域法.

如何确定信赖区域的范围?

根据我们的近似模型跟实际函数之间的差异来确定: 如果差异小,扩大范围,如果差异大,缩小范围.

因此使用 $\rho$ 来判断泰勒近似是否好:
$\rho = \frac{f(x+\Delta x)-f(x)}{J(x)\Delta x}$

$\rho$ 接近于1 说明近似效果好.

如果 $\rho$ 太小,说明近似差,需要缩小范围, 反之放大范围.

于是有了一个改良版的非线性优化框架:

给定初始值 $x_0$ , 以及初始优化半径 $\mu$
对于第k次迭代,求解:
$\min \limits_{\Delta x_k} \frac{1}{2}\|f(x_k) + J(x_k)\Delta x_k \|^2 , \quad s.t. \quad \|D \Delta x_k \|^2 \leqslant \mu$
- $\mu$ 是信赖区域半径
- D 将会在后面说明
计算 $\rho$
若 $\rho > \frac{3}{4}$ , 则 $\mu = 2 \mu$
若 $\rho < \frac{1}{4}$ , 则 $\mu = 0.5 \mu$
如果 $\rho$ 大于阈值,则认为近似可行. 令 $x_{k+1}= x_k+\Delta x_k$
判断算法是都收敛.如果不收敛返回第二步,否则结束.

这里的近似范围和阈值都是经验值.

用拉格朗日将它转化为无约束的优化问题:
$\min \limits_{\Delta x_k} \frac{1}{2}\|f(x_k) + J(x_k)\Delta x_k \|^2+\frac{\lambda}{2}\|D\Delta x\|^2$

这里的 $\lambda$ 为拉格朗日乘子.把它展开:
$(H+\lambda D^TD)\Delta x =g$

考虑简化形式 $D = I$ :
$(H+\lambda I)\Delta x = g$

当 $\lambda$ 较小,H 占据主导地位,说明二次近似模型在该范围内较好,列文伯格-马夸而特方法更接近于高斯牛顿法.
当 $\lambda$ 较大时, $\lambda I$ 占据主导地位,列文伯格-马夸尔特方法更接近于一阶梯度下降法.

在实际问题中,有有许多方法来求解函数的增量.非线性优化的框架大体上可分为两类:

Lince search : 先固定搜索方向.在该方向上寻找步长,以最速下降和高斯牛顿法为代表.
Trust Region: 先固定搜索区域,在该区域内搜索最优点,以列文伯格-看马夸尔特方法为代表.

2. 实践: Ceres

主要介绍两个库:

Ceres
g2o

2.1. Ceres简介

Ceres面向通用的最小二乘求解.

在Ceres中定义优化变量 $x$ 和每个代价函数 $f_i$ ,再调用Ceres进行求解.设定梯度下降条件,Ceres会在优化之后将最优结果返回.

2.2. 安装Ceres

…

2.3. 使用Ceres拟合曲线

假设有一条去下方程:
$y = \exp(ax^2 +bx+c)+w$

w为高斯噪声

求解下面的最小二乘问题来估计曲线的参数.

$\min \limits_{a,b,c} \frac{1}{2}\sum_{i=1}^N \| y_i -\exp(ax_i^2+bx_i+c)\|^2$

要估计的是变量是a,b,c,而不是x. 首先给出真实值,然后在真实值中添加噪声作为测试数据.

代码见/code/第六讲

3. 实践:g2o

它是一个基于图优化的库.图优化是一种将非线性优化和图论结合起来的优化方式.

3.1. 图优化的简单理论

一个图由若干定点以及连接顶点的边组成. 进而用顶点表示优化变量,用边表示误差.

3.2. 使用g2o拟合曲线

代码见/code/第六讲

wyc-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第六讲:非线性优化

第六讲:非线性优化文章目录第六讲:非线性优化1. 状态估计问题1.1. 最大后验与最大似然1.2. 最小二乘的引出1.3. 非线性最小二乘法1.4. 一阶和二阶梯度法1.5. 牛顿高斯法1.6. 列文伯格-马夸尔特方法2. 实践: Ceres2.1. Ceres简介2.2. 安装Ceres2.3. 使用Ceres拟合曲线3. 实践:g2o3.1. 图优化的简单理论3.2. 使用g2o拟合曲线在...
复制链接

扫一扫

专栏目录