一阶梯度$二阶梯度$高斯牛顿算法

最新推荐文章于 2024-07-14 14:00:10 发布

OwnResponsibility

最新推荐文章于 2024-07-14 14:00:10 发布

阅读量2.3k

点赞数

分类专栏： SLAM LeetCode 机器学习文章标签：算法深度学习

本文链接：https://blog.csdn.net/qq_38757779/article/details/128740902

版权

SLAM 同时被 3 个专栏收录

6 篇文章 1 订阅

订阅专栏

LeetCode

3 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

梯度, 一阶梯度,二阶梯度,高斯牛顿优化. 后三者与前面可能没有太大关系.

提示：以下是本篇文章正文内容，下面内容可供参考

一、梯度

1.1丶方向

1.1.1丶平面上的方向 $平面向量\vec{u}≠0$

在这里插入图片描述

1.2梯度的几何意义

命题1.1: $曲面F(x,y,z)=0在其上任意一点的法向量为N=(F_x,F_y,F_z).$

例如: $x^2+y^2-Z^2-1=0 ~~~在点(1,1,1)处的法向量$
计算出来的法向量为(2,2,-2) 起点为(1,1,1) 终点为(3,3,-1)
在这里插入图片描述

命题1.2
$二元函数z=f(x,y)的图像上的法向量为N=(f_x,f_y,-1)$

命题1.3
$设e,x_2是两个线性无关(不共线)的向量,e是单位向量,则~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ (1)x_2·e是向量x_2在向量e上的投影(射影);~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ (2)(x_2·e)e是向量x_2在向量e上的投影向量(射影向量);~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ (3)x_2-(x_2·e)e与向量e正交,从而它是x_2向e的正交补空间上的投影向量$

命題1.4：
$二元函数z=f(x,z)在任意一点(x_0,y_0)的梯度gradf等于此二元函数图像上点(x_0,y_0,f(x_0,y_0))的法向量N在xOy平面上的投影向量.$

黑色向量就是在点B上的法向量,红色向量为梯度向量.就是法向量在xOy面上的投影

梯度
定义:设函数f(x,y)在平面区域D内有一阶连续偏导数,对于每一点P(x0,y0)∈D,都可得出向量:
$f'_x(x_0,y_0)\vec{i}+f'_y(x_0,y_0)\vec{j}.称该向量为函数f(x,y)在点P_0(x_0,y_0)的梯度,记做gradf(x_0,y_0)或∇f(x_0,y_0),\\ 即 gradf(x_0,y_0)=f'_x(x_0,y_0)\vec{i}+f'_y(x_0,y_0)\vec{j}.$

1.2 方向导数

命题1.5
$\\ \frac{\delta z }{\delta l}= \frac{\delta f }{\delta x}cos\alpha+ \frac{\delta f }{\delta y}cos\beta,\\这里cos\alpha=\frac{a}{\sqrt{a^2+b^2}},cos\beta=\frac{b}{\sqrt{a^2+b^2}}$

推论1.1
$二元函数z=f(x,y)在点(x_0,y_0)沿单位方向l_0的方向导数\frac{\delta z}{\delta l_0}就是f(x,y)在点(x_0,y_0)的梯度gradf(x_0,y_0)在单位向量l_0上的投影.(方向导数的绝对值就是梯度在单位向量上的投影向量的模长)$

推论1.2
$设二元函数z=f(x,y)在点(x_0,y_0)可微,j=(0,1)是x轴y轴的单位方向,则:\\ \frac{\delta f}{\delta x}|_{(x_0,y_0)}=\frac{\delta z}{\delta i}|_{(x_0,y_0)}, ~~ \frac{\delta f}{\delta y}|_{(x_0,y_0)}=\frac{\delta z}{\delta j}|_{(x_0,y_0)}\ .$

结论:偏导数一定是方向导数,方向导数不一定是偏导数

u的模长就是方向导数, l1=(1,0)的方向投影向量的模长. 其中l1就是单位方向向量

在这里插入图片描述

二、求解非线性最小二乘

在SLAM中由于早生的存在,当我们把估计轨迹和地图带入SLAM的运动,观测方程时,等号并不会成立. 此时就要调整状态估计,是的误差最小化.
先考虑简单情况的问题:
$\min_xF(x)=\frac{1}{2}||f(x)||_2^2 ~~x∈R^n.f是任意标量非线性函数f(x).~~~~~~~~~\mathbb R^2 \to \R.$
当f很简单时, 令目标函数的导数为零,然后求解最优值.
$\frac{\delta F}{\delta x}=0 ~~~~ 导数为零的极值,可能是极大值,极小值或鞍点处的值,.则只需比较这些函数值大小即可.$
当f复杂时: $\frac{\delta F}{\delta x}=0 ~~难求或者\frac{\delta F}{\delta x}=0~~难解$
则需要使用迭代的方式求解:(从一个初始值出发,不断优化当前的优化变量,使得目标函数下降)

$1丶给定某个初始值x_0 \\ 2丶对于第k次迭代寻找一个增量\Delta x_k,使得||f(x_k+\Delta x_k)||_2^2达到最小值.\color{#F00}{其中\Delta x_k如何寻找是重点} \color{#000}\\ 3丶若\Delta x_k足够小,则停止\\ 4丶否则,令x_{k+1}=x_k+\Delta x_k, 返回2.$
让求解导数为零的问题,变成了一个不断寻找增量使函数不断下降的过程。直到某个时刻增量非常小,无法使得函数下降,则算法收敛.目标函数达到了极小,也就完成了寻找极小值的过程。

2.1 一阶梯度

将目标函数在x附近进行泰勒展开:
在这里插入图片描述
$\color{#00F}{对于目标函数做了一阶近似,把一个非线性函数f线性成了一次函数,这种近似自然是极其不准确的}\\ \color{#F00}{最速下降法基本思想: ~~~~ 最速下降方向:负梯度方向; 步长:精确搜索.}$

在这里插入图片描述

局部最优点为x^*,当前位置为x^k. 圆圈是目标函数的等高线.
x垂直于等高线的方向是目前所处位置的最速下降方向,这也是函数在该点出的梯度或者导数方向(其实是梯度的反方向),每次迭代都沿着梯度方向前进.

优点:最速下降求解简单,只需求解一阶导数
缺点: 但是梯度方向一开始并不一定指向全局最小值,如图所示.因此在实际中,最速下降法很可能走出一条及其曲折的路线,导致其收敛速度很慢,不实用.

2.2 二阶梯度

将目标函数F在x附近进行泰勒展开,并保留二阶梯度.
$F(x_k+\Delta x_k)≈F(x_k)+J(x_k)^T\Delta x_k+\frac{1}{2}\Delta x_k^TH(x_k)\Delta x_k.$
增量的解(求上式关于Δx的导数并令其为零):
$J+H\Delta x=0 \to H\Delta x=-J$
求解增量时只需解线性方程组: $d=H^{-1} \nabla f(x)~~~\color{#0F0}{牛顿法}~~仅依赖于目标函数的二阶导,在很多情况下是不现实的$

考虑得到的牛顿方向一定是下降方向吗?
$如果H不是正定矩阵\begin{cases} H的逆矩阵求不出来&存在特征值为0\\ -\nabla f(x_k)^T ·d_k=\\ -\nabla f(x_k)^TH^{-1}\nabla f(x_k)无法判断是否小于0& 存在特征值为负 \end{cases}$
当H满足较好的性质时(正定矩阵),牛顿法是可行的。
$\frac{dX^TAX}{dX}=(A+A^T)X \ \ \ \ \ 其中A为n×n的矩阵, x为n×1的列向量$

2.3 高斯牛顿算法

最速下降法和牛顿法虽然直观,但使用中存在一些缺点.
—最速下降法过于贪婪,容易走出锯齿线路,增加迭代次数.
—牛顿法迭代次数少,但需要计算复杂的H矩阵.并且H不一定是正定矩阵.

一阶泰勒展开: $f(x+\nabla x)≈f(x)+J^T\nabla x.~~~其中J(x)^T是f(x)关于x的导数.$
需要解这个最小二乘问题:
$\Delta x^*=arg \min_{\Delta x}\frac{1}{2} || f(x)+J(x)^T\Delta x||^2$
$\frac{1}{2} || f(x)+J(x)^T\Delta x||^2=\frac{1}{3}(||f(x)||_2^2+2f(x)J(x)^T\Delta x+\Delta x^TJ(x)J(x)^T\Delta x)\\ \color{#00F}{上式关于\Delta x求导,并令其为0} \\J(x)f(x)+J(x)J^T(x)\Delta x=0;$
$\underbrace{J(x)J^T(x)\Delta x} _{H(x)}=\underbrace{-J(x)f(x)}_{g(x)}\to H\Delta x=g\\ 用J^TJ作为牛顿法中二阶H矩阵的近似.$
高斯牛顿法用J的表达式近似了H

步骤:
$1.给定初始值x_0\\2.对于第K次迭代,求出当前的雅可比矩阵J(x_k)和误差f(x_k)\\ 3.求解增量方程:H\Delta x_k=g.\to\Delta x_k=H^{-1}g.\\ 4.若\Delta x_k足够小,则停止,否则令H_{k+1}=x_k+\Delta x_k,返回2$