图优化理论框架

小于小于大橙子

已于 2024-05-24 20:03:58 修改

阅读量578

点赞数 5

文章标签：自动驾驶自动化机器学习

于 2024-05-24 20:02:54 首次发布

本文链接：https://blog.csdn.net/qq_54375651/article/details/139183166

版权

Graph Optimization

1、非线性最小二乘问题

SLAM问题通常可以表述为非线性最小二乘问题
$\begin{align*} F(\mathbf{x}) &=\frac{1}{2}\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in{C}}\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})^{T}\boldsymbol\Omega_{ij}\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})\tag{1}\\ \mathbf{x}^{\ast} &=\underset{\mathbf{x}}{\arg\min}\,F(\mathbf{x})\tag{2} \end{align*}$
其中 $\mathbf{x}=[\mathbf{x}_{1}^{T},\mathbf{x}_{2}^{T},\cdots,\mathbf{x}_{n}^{T}]^{T}\in\mathbb{R}^{N}$ 为全部参数组成的向量， $\mathbf{x}_{k},k=1,\cdots,n$ 表示一个参数块。 $C$ 是全部参与求和的参数块组合， $\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})\in\mathbb{R}^{M_{ij}}$ 称为误差函数， $\boldsymbol\Omega_{ij}\in\mathbb{R}^{M_{ij}\times{M_{ij}}}$ 称为信息矩阵，为对称正定矩阵。注意，这里为方便推导，假定误差函数的自变量是两个参数块，但在实际情况下，误差函数自变量可以仅包含一个参数块，也可以包含更多的参数块，此时该问题的求解方式可以很方便地通过拓展下面的推导得到。

非线性最小二乘问题可以通过图来构建，其中顶点表示参数快，边表示误差函数，此时称之为图优化问题

在这里插入图片描述

2、求解非线性最小二乘问题

略写误差函数中的观测量，并将误差函数视作全部参数的函数，即采用下面的记法
$\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})=\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j})=\mathbf{e}_{ij}(\mathbf{x})$
通过泰勒展开得到误差函数的一阶近似
$\mathbf{e}_{ij}(\mathbf{x}_{i}+\Delta\mathbf{x}_{i},\mathbf{x}_{j}+\Delta\mathbf{x}_{j}) =\mathbf{e}_{ij}(\mathbf{x}+\Delta\mathbf{x}) \approx\mathbf{e}_{ij}+\mathbf{J}_{ij}\Delta\mathbf{x}\tag{3}$
其中 $\mathbf{e}_{ij}=\mathbf{e}_{ij}(\mathbf{x})$ ， $\mathbf{J}_{ij}=\lim_{\Delta{x}\rightarrow\mathbf{0}}\frac{\mathbf{e}_{ij}(\mathbf{x}+\Delta\mathbf{x})-\mathbf{e}_{ij}(\mathbf{x})}{\Delta\mathbf{x}}\in\mathbb{R}^{M_{ij}\times{N}}$

考虑到参数 $\mathbf{x}$ 可能位于非欧式空间 $\mathrm{Dom}(\mathbf{x})$ ，而摄动量 $\Delta\mathbf{x}$ 位于欧式空间 $\mathbb{R}^{N}$ ，故 $(7)$ 中的向量加法很可能导致 $\mathbf{x}+\Delta\mathbf{x}\notin\mathrm{Dom}(\mathbf{x})$ 。为解决该问题，可采用广义加法 $\oplus:\mathrm{Dom}(\mathbf{x})\times\mathbb{R}^{N}\rightarrow\mathrm{Dom}(\mathbf{x})$ 将 $(7)$ 改写为
$\mathbf{e}_{ij}(\mathbf{x}_{i}\oplus\Delta\mathbf{x}_{i},\mathbf{x}_{j}\oplus\Delta\mathbf{x}_{j}) =\mathbf{e}_{ij}(\mathbf{x}\oplus\Delta\mathbf{x}) \approx\mathbf{e}_{ij}+\mathbf{J}_{ij}\Delta\mathbf{x}$
其中 $\mathbf{J}_{ij}=\lim_{\Delta{x}\rightarrow\mathbf{0}}\frac{\mathbf{e}_{ij}(\mathbf{x}\oplus\Delta\mathbf{x})-\mathbf{e}_{ij}(\mathbf{x})}{\Delta\mathbf{x}}\in\mathbb{R}^{M_{ij}\times{N}}$

记 $F_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})=\frac{1}{2}\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})^{T}\boldsymbol\Omega_{ij}\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})$ ，同样略去误差观测量，并将 $F_{ij}$ 视作全部参数的函数，即采用下面的记法
$F_{ij}(\mathbf{x}_{i},\mathbf{x}_{j},\mathbf{z}_{ij})=F_{ij}(\mathbf{x}_{i},\mathbf{x}_{j})=F_{ij}(\mathbf{x})$
计算 $F_{ij}(\mathbf{x}+\Delta\mathbf{x})$
$\begin{align*} F_{ij}(\mathbf{x}\oplus\Delta\mathbf{x}) &=\frac{1}{2}\mathbf{e}_{ij}(\mathbf{x}\oplus\Delta\mathbf{x})^{T}\boldsymbol\Omega_{ij}\mathbf{e}_{ij}(\mathbf{x}\oplus\Delta\mathbf{x})\\ &=\frac{1}{2}(\mathbf{e}_{ij}+\mathbf{J}_{ij}\Delta\mathbf{x})^{T}\boldsymbol\Omega_{ij}(\mathbf{e}_{ij}+\mathbf{J}_{ij}\Delta\mathbf{x})\\ &=\frac{1}{2}\left(\underbrace{\mathbf{e}_{ij}^{T}\boldsymbol\Omega_{ij}\mathbf{e}_{ij}}_{2c_{ij}}+2\underbrace{\mathbf{e}_{ij}^{T}\boldsymbol\Omega_{ij}\mathbf{J}_{ij}}_{\mathbf{b}_{ij}^{T}}\Delta\mathbf{x}+\Delta\mathbf{x}^{T}\underbrace{\mathbf{J}_{ij}^{T}\boldsymbol\Omega_{ij}\mathbf{J}_{ij}}_{\mathbf{H}_{ij}}\Delta\mathbf{x}\right)\\ &=c_{ij}+\mathbf{b}_{ij}^{T}\Delta\mathbf{x}+\frac{1}{2}\Delta\mathbf{x}^{T}\mathbf{H}_{ij}\Delta\mathbf{x}\tag{4} \end{align*}$
将 $(4)$ 代入 $(1)$ 计算 $F(\mathbf{x}+\Delta\mathbf{x})$
$\begin{align*} F(\mathbf{x}\oplus\Delta\mathbf{x}) &=\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in\mathcal{C}}F_{ij}(\mathbf{x}\oplus\Delta\mathbf{x})\\ &=\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in\mathcal{C}}c_{ij}+\mathbf{b}_{ij}\Delta\mathbf{x}+\frac{1}{2}\Delta\mathbf{x}^{T}\mathbf{H}_{ij}\Delta\mathbf{x}\\ &=c+\mathbf{b}^{T}\Delta\mathbf{x}+\frac{1}{2}\Delta\mathbf{x}^{T}\mathbf{H}\Delta\mathbf{x}\tag{5} \end{align*}$

其中 $\mathbf{b}=\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in\mathcal{C}}\mathbf{b}_{ij}\in\mathbb{R}^{n}$ ， $\mathbf{H}=\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in\mathcal{C}}\mathbf{H}_{ij}\in\mathbb{R}^{N\times{N}}$

实际上， $\mathbf{b}$ 等于 $F$ 在 $\mathbf{x}$ 点处的梯度，而采用 $\mathbf{H}$ 近似 $F$ 在 $\mathbf{x}$ 点处的海森矩阵
$\begin{align*} \mathbf{b}&=\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in\mathcal{C}}\left[\nabla\mathbf{e}_{ij}(\mathbf{x})\boldsymbol{\Omega}_{ij}\mathbf{e}_{ij}(\mathbf{x})\right]=\nabla{F}(\mathbf{x})\\ \mathbf{H}&=\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in\mathcal{C}}\left[\nabla\mathbf{e}_{ij}(\mathbf{x})\boldsymbol{\Omega}_{ij}\nabla\mathbf{e}_{ij}(\mathbf{x})^{T}\right]\rightarrow\nabla^{2}F(\mathbf{x})=\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in\mathcal{C}}\left[\cdots+\nabla\mathbf{e}_{ij}(\mathbf{x})\boldsymbol{\Omega}_{ij}\nabla\mathbf{e}_{ij}(\mathbf{x})^{T}\right] \end{align*}$
2.1、梯度下降法

梯度下降法通过取增量方向为目标函数的负梯度方向来保证目标函数的一阶近似下降

保留 $(5)$ 至一阶项
$F(\mathbf{x}\oplus\Delta\mathbf{x})=c+\mathbf{b}^{T}\Delta\mathbf{x}$
此时取
$\Delta\mathbf{x}=-\lambda\mathbf{b}\tag{6}$
即可保证目标函数的一阶近似下降，其中 $\lambda>0$ 称为步长

梯度下降法求解非线性最小二乘问题的具体步骤如下：

令 $k = 0$ ，给定初始值 $\mathbf{x}_{0}$ ， $\lambda$
若 $k$ 达到最大迭代次数，则停止迭代；否则根据 $\mathbf{x}_{k}$ 求出当前的和 $\mathbf{b}_{k}$
令 $\Delta\mathbf{x}_{k}=-\lambda\mathbf{b}_{k}$
如果 $\Delta\mathbf{x}_{k}$ 足够小，则停止迭代；否则令 $\mathbf{x}_{k+1}=\mathbf{x}_{k}\oplus\Delta\mathbf{x}_{k}$ ， $k = k + 1$ ，返回第2步

2.2、高斯牛顿法

高斯牛顿法采用 $\mathbf{H}$ 近似 $F(\mathbf{x})$ 在 $\mathbf{x}$ 点处的海森矩阵，避免了海森矩阵的计算，又可以通过求解二阶近似的最小值实现更快的收敛

因为 $\mathbf{H}$ 矩阵半正定，故根据 $(8)$ ， $\Delta\mathbf{x}$ 的函数 $F(\mathbf{x}\oplus\Delta\mathbf{x})$ 为凸函数，因此其最小值在 $\frac{\partial{F(\mathbf{x}\oplus\Delta\mathbf{x})}}{\partial\Delta\mathbf{x}}=\mathbf{0}$ 处取得，即要求 $\Delta\mathbf{x}$ 满足下式时取得
$\mathbf{H}\Delta\mathbf{x}=-\mathbf{b}\tag{7}$
$(11)$ 称为增量方程，求解增量方程是整个优化问题的核心。

高斯牛顿法求解非线性最小二乘问题的具体步骤如下：

令 $k = 0$ ，给定初始值 $\mathbf{x}_{0}$ ，
若 $k$ 达到最大迭代次数，则停止迭代；否则根据 $\mathbf{x}_{k}$ 求出当前的 $\mathbf{H}_{k}$ 和 $\mathbf{b}_{k}$
求解增量方程： $\mathbf{H}_{k}\Delta\mathbf{x}_{k}=-\mathbf{b}_{k}$ ：当 $\mathbf{H}$ 正定时，增量方程可以通过Cholesky分解高效求解；当 $\mathbf{H}$ 非正定时，可取 $\Delta\mathbf{x}_{k}=\Delta\mathbf{x}_{k-1}$
如果 $\Delta\mathbf{x}_{k}$ 足够小，则停止迭代；否则令 $\mathbf{x}_{k+1}=\mathbf{x}_{k}\oplus\Delta\mathbf{x}_{k}$ ， $k = k + 1$ ，返回第2步

2.3、Levenberg-Marquardt算法

Levenberg-Marquardt算法，简称LM算法。考虑到高斯牛顿法中对海森矩阵的近似不一定准确，二阶泰勒展开式也只能才展开点附近有较好的效果，为结合梯度下降法和高斯牛顿法的优点，可以将增量方程改写为
$(\mathbf{H}+\lambda\mathbf{I})\Delta\mathbf{x}=-\mathbf{b}\tag{8}$
此方程称为LM算法的增量方程

此外，通过 $\rho=\frac{F(\mathbf{x}\oplus\Delta\mathbf{x})-F(\mathbf{x})}{\nabla{F(\mathbf{x})^{T}\Delta\mathbf{x}}}$ 反映一阶近似的准确度，如果一阶近似准确度高，则 $\lambda$ 值增大，更接近梯度下降法，如果一阶近似准确度低，即函数非线性的性质更加突出，则 $\lambda$ 值减小，更接近高斯牛顿法。

LM算法求解非线性最小二乘问题的具体步骤如下：

令 $k = 0$ ，给定初始值 $\mathbf{x}_{0}$ ， $\lambda_{0}$
若 $k$ 达到最大迭代次数，则停止迭代；否则根据 $\mathbf{x}_{k}$ 求出当前的 $\mathbf{H}_{k},\mathbf{b}_{k},\rho_{k}$
若 $\rho_{k}>\frac{3}{4}$ ，则 $\lambda_{k+1}=2\lambda_{k}$ ；若 $\rho_{k}<\frac{1}{4}$ ，则 $\lambda_{k+1}=\frac{1}{2}\lambda_{k}$ ；若 $\frac{1}{4}\leqslant\rho_{k}\leqslant\frac{3}{4}$ ，则 $\lambda_{k+1}=\lambda_{k}$
求解 $(\mathbf{H}_{k}+\lambda_{k+1}\mathbf{I})\Delta\mathbf{x}_{k}=-\mathbf{b}_{k}$ ：因为 $(\mathbf{H}_{k}+\lambda_{k+1}\mathbf{I})$ 恒为正定，故可以通过Cholesky分解高效求解
如果 $\Delta\mathbf{x}_{k}$ 足够小，则停止迭代； $\mathbf{x}_{k+1}=\mathbf{x}_{k}\oplus\Delta\mathbf{x}_{k}$ ， $k = k + 1$ ，返回第2步

3、核函数

注意到，当某条边的误差 $\mathbf{e}_{ij}$ 很大时， $F_{ij}(\mathbf{x})=\mathbf{e}_{ij}^{T}\boldsymbol{\Omega}_{ij}\mathbf{e}_{ij}$ 会很大，其梯度 $\nabla{F}_{ij}(\mathbf{x})=\mathbf{J}_{ij}^{T}\boldsymbol{\Omega}_{ij}\mathbf{e}_{ij}$ 也会很大，而算法会根据梯度更大幅度地调整这条边所连接的节点的估计值，而掩盖这些节点与其他边的关系。

可以定义核函数 $\rho(\cdot)$ ，在非线性最小二乘问题中用 $\rho(F_{ij}(\mathbf{x}))$ 代替 $F_{ij}(\mathbf{x})$

最常用的核函数是Huber核函数，其定义为
$\rho(x)=\left\{ \begin{array}{ll} x&0\leqslant{x}\leqslant\delta^{2}\\ 2\delta(\sqrt{x}-\frac{\delta}{2})&{x}>\delta^{2} \end{array} \right.$
Huber函数图像如下

Huber核函数是二阶可导的，其一阶导数和二阶导数为
$\begin{align*} \rho^{\prime}(x)=\left\{ \begin{array}{ll} 1&0\leqslant{x}\leqslant\delta^{2}\\ \frac{\delta}{\sqrt{x}}&{x}>\delta^{2} \end{array} \right.\quad\quad\quad \rho^{\prime\prime}(x)=\left\{ \begin{array}{ll} 0&0\leqslant{x}\leqslant\delta^{2}\\ -\frac{1}{2}\frac{\delta}{(\sqrt{x})^{3}}&{x}>\delta^{2} \end{array} \right.\\ \end{align*}$
对 $\rho(F_{ij}(\mathbf{x}\oplus\Delta\mathbf{x}))$ 做如下展开
$\rho(F_{ij}(\mathbf{x}\oplus\Delta\mathbf{x}))=\rho(F_{ij}(\mathbf{x}))+\nabla\rho(F_{ij}(\mathbf{x}))^{T}\Delta\mathbf{x}+\frac{1}{2}\Delta\mathbf{x}^{T}\nabla^{2}\rho(F_{ij}(\mathbf{x}))\Delta\mathbf{x}$
其中
$\begin{align*} \nabla\rho(F_{ij}(\mathbf{x}))&=\left.\frac{\partial\rho}{\partial{F}_{ij}}\right|_{F_{ij}(\mathbf{x})}\nabla{F}_{ij}(\mathbf{x})=\rho^{\prime}(F_{ij}(\mathbf{x}))\mathbf{b}_{ij}=\mathbf{J}_{ij}^{T}\left(\rho^{\prime}(F_{ij}(\mathbf{x}))\boldsymbol{\Omega}_{ij}\right)\mathbf{e}_{ij}\\ \nabla^{2}\rho(F_{ij}(\mathbf{x}))&=\left.\frac{\partial^{2}\rho}{\partial{F}_{ij}^{2}}\right|_{F_{ij}(\mathbf{x})}\nabla{F}_{ij}(\mathbf{x})\nabla{F}_{ij}(\mathbf{x})^{T}+\left.\frac{\partial\rho}{\partial{F}_{ij}}\right|_{F_{ij}(\mathbf{x})}\nabla^{2}{F}_{ij}(\mathbf{x})=\rho^{\prime\prime}(F_{ij}(\mathbf{x}))\mathbf{b}_{ij}\mathbf{b}_{ij}^{T}+\rho^{\prime}(F_{ij}(\mathbf{x}))\mathbf{H}_{ij}\rightarrow\rho^{\prime}(F_{ij}(\mathbf{x}))\mathbf{H}_{ij}=\mathbf{J}_{ij}^{T}\left(\rho^{\prime}(F_{ij}(\mathbf{x}))\boldsymbol{\Omega}_{ij}\right)\mathbf{J}_{ij} \end{align*}$
上式第二行中，因为考虑到可能存在 $\rho^{\prime\prime}(F_{ij}(\mathbf{x}))<0$ ，故为确保 $\nabla^{2}\rho(F_{ij}(\mathbf{x}))$ 正定性与 $\mathbf{H}_{ij}$ 一致，舍去含 $\rho^{\prime\prime}(F_{ij}(\mathbf{x}))$ 的项。由上面的分析知，对某条边应用核函数后，在优化过程中只需修改其对应的信息矩阵即可。

令 $\mathbf{b}_{ij}\leftarrow\nabla\rho(F_{ij}(\mathbf{x}))$ ， $\mathbf{H}_{ij}\leftarrow\nabla^{2}\rho(F_{ij}(\mathbf{x}))$ ，从而可以构建新的增量方程。

通过上述过程，可以解决因误差 $\mathbf{e}_{ij}$ 过大而导致的问题。

附录

§1、标量函数的二阶泰勒展开

若一个多元标量函数 $f:\mathbb{R}^{N}\rightarrow\mathbb{R}$ 在 $\mathbf{a}$ 点处二阶可微，则存在 $\mathbf{a}$ 的邻域 $U(\mathbf{x},\delta)=\{\mathbf{x}+\Delta\mathbf{x}|\|\Delta\mathbf{x}\|<\delta\}$ ，使得在该邻域中
$f(\mathbf{x}+\Delta\mathbf{x})=f(\mathbf{x})+\mathbf{J}f(\mathbf{x})\Delta\mathbf{x}+\frac{1}{2}\Delta\mathbf{x}^{T}\mathbf{H}f(\mathbf{x})\Delta\mathbf{x}+\mathrm{o}(\|\Delta\mathbf{x}\|^{2})\tag{A1}$
其中

$\mathbf{J}f(\mathbf{x})=\nabla{f}(\mathbf{x})^{T}=\lim_{\Delta\mathbf{x}\rightarrow\mathbf{0}}\frac{f(\mathbf{x}+\Delta\mathbf{x})-f(\mathbf{x})}{\Delta\mathbf{x}^{T}}\in\mathbb{R}^{1\times N}$ 称为雅可比矩阵；

$\mathbf{H}f(\mathbf{x})=\nabla^{2}{f}(\mathbf{x})=\lim_{\Delta\mathbf{x}\rightarrow\mathbf{0}}\frac{\nabla{f}(\mathbf{x}+\Delta\mathbf{x})-\nabla{f}(\mathbf{x})}{\Delta\mathbf{x}^{T}}\in\mathbb{R}^{N\times{N}}$ 称为海森矩阵。

$\mathrm{(A1)}$ 称为标量函数 $f$ 的二阶泰勒展开。

下面根据上述理论推导当 $\mathbf{f}$ 的定义域为非欧式空间 $\mathrm{Dom}(\mathbf{x})$ 时的二阶泰勒展开

记 $h(\Delta\mathbf{x})=f(\mathbf{x}\oplus\Delta\mathbf{x}):\mathbb{R}^{N}\rightarrow\mathbb{R}$ ， $\oplus:\mathrm{Dom}(\mathbf{x})\times\mathbb{R}^{N}\rightarrow\mathrm{Dom}(\mathbf{x})$ ，若 $h$ 在 $\mathbf{0}$ 点处二阶可微，则存在 $\mathbf{0}$ 的邻域 $U(\mathbf{0},\delta)=\{\Delta\mathbf{x}|\|\Delta\mathbf{x}\|<\delta\}$ ，使得在该邻域中
$h(\Delta\mathbf{x})=h(\mathbf{0})+\mathbf{J}h(\mathbf{0})^{T}\Delta\mathbf{x}+\frac{1}{2}\Delta\mathbf{x}^{T}\mathbf{H}h(\mathbf{0})\Delta\mathbf{x}+\mathrm{o}(\|\Delta\mathbf{x}\|^{2})\tag{A2}$
其中

$\mathbf{J}h(\mathbf{0})=\nabla{h}(\mathbf{0})^{T}=\lim_{\Delta\mathbf{x}\rightarrow\mathbf{0}}\frac{h(\Delta\mathbf{x})-h(\mathbf{0})}{\Delta\mathbf{x}^{T}}=\lim_{\Delta\mathbf{x}\rightarrow\mathbf{0}}\frac{f(\mathbf{x}\oplus\Delta\mathbf{x})-f(\mathbf{x})}{\Delta\mathbf{x}^{T}}\in\mathbb{R}^{1\times N}$ ，可以发现 $\mathbf{J}h(\mathbf{0})$ 和 $\mathrm{(A1)}$ 中 $\mathbf{J}f(\mathbf{x})$ 具有类似的结构，故记 $\mathbf{J}f(\mathbf{x})=\nabla{f}(\mathbf{x})^{T}=\mathbf{J}h(\mathbf{0})$ ，称 $\mathbf{J}f(\mathbf{x})$ 为对增量 $\Delta\mathbf{x}$ 的雅可比矩阵；

$\mathbf{H}h(\mathbf{0})=\nabla^{2}h(\mathbf{0})=\lim_{\Delta\mathbf{x}\rightarrow\mathbf{0}}\frac{\nabla{h}(\Delta\mathbf{x})-\nabla{h}(\mathbf{0})}{\Delta\mathbf{x}^{T}}=\lim_{\Delta\mathbf{x}\rightarrow\mathbf{0}}\frac{\nabla{f}(\mathbf{x}\oplus\Delta\mathbf{x})-\nabla{f}(\mathbf{x})}{\Delta\mathbf{x}^{T}}\in\mathbb{R}^{N\times{N}}$ ，可以发现 $\mathbf{H}h(\mathbf{0})$ 和 $\mathrm{(A1)}$ 中 $\mathbf{H}f(\mathbf{x})$ 具有类似的结构，故记 $\mathbf{H}f(\mathbf{x})=\nabla^{2}f(\mathbf{x})=\mathbf{H}h(\mathbf{0})$ ，称 $\mathbf{H}f(\mathbf{x})$ 为对增量 $\Delta\mathbf{x}$ 的海森矩阵。

综上， $\mathrm{(A2)}$ 也可以写成
$f(\mathbf{x}\oplus\Delta\mathbf{x})=f(\mathbf{x})+\mathbf{J}f(\mathbf{x})\Delta\mathbf{x}+\frac{1}{2}\Delta\mathbf{x}^{T}\mathbf{H}f(\mathbf{x})\Delta\mathbf{x}+\mathrm{o}(\|\Delta\mathbf{x}\|^{2})\tag{A3}$
$\mathrm{(A3)}$ 称为 $\mathrm{Dom}(\mathbf{x})$ 上的标量函数 $\mathbf{f}$ 的二阶泰勒展开。

为简便起见，常将上面的雅可比矩阵和海森矩阵分别用 $\mathbf{J}(\cdot)$ ， $\mathbf{H}(\cdot)$ 代替

小于小于大橙子

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
1
评论
图优化理论框架

Graph Optimization1、非线性最小二乘问题SLAM问题通常可以表述为非线性最小二乘问题F(x)=12∑(xi,xj)∈Ceij(xi,xj,zij)TΩijeij(xi,xj,zij)x∗=arg⁡min⁡x F(x)\begin{align*}F(\mathbf{x})&=\frac{1}{2}\sum_{(\mathbf{x}_{i},\mathbf{x}_{j})\in{C}}\mathbf{e}_{ij}(\mathbf{x}_{i},\mathbf{x}_{j}
复制链接

扫一扫