凸优化学习-（二十六）无约束优化算法——牛顿法、拟牛顿法及无约束算法总结

最新推荐文章于 2023-12-24 15:20:06 发布

明远湖边的秃头

最新推荐文章于 2023-12-24 15:20:06 发布

阅读量1.3k

点赞数 3

分类专栏： # 凸优化文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40917612/article/details/105324417

版权

凸优化专栏收录该内容

30 篇文章 119 订阅

订阅专栏

凸优化学习

学习笔记

一、牛顿法（ $\text{Newton's method}$ ）

1.推导

在最速下降法中，我们的方向：
$d^k=\arg\min_v\lbrace f(x^k+v)\big|\|v\|=1\rbrace$
其中我们是对 $f(x^k+v)$ 进行一阶泰勒展开来求 $d^k$ 的，那么我们对其进行二阶泰勒展开，就得到了牛顿法：
$d^k=\arg\min_v\lbrace f(x)+\nabla f^T(x)v+\frac 1 2 v^T\nabla^2f(x^k)v\rbrace$
这就变成了一个关于 $v$ 的二次函数，很容易求得 $v$ 的值，即：
$d^k=-\big( \nabla^2f(x^k)\big)^{-1}\nabla f(x^k)$
就是使用 $\text{Hassan}$ 矩阵对负梯度方向进行调整。

2.收敛性分析

当 $\nabla f^T(x^k)d^k=-\nabla f^T(x^k)\big(\nabla^2f(x^k)\big)^{-1}\nabla f(x^k)$ 接近于0时收敛，这里不给出证明。

3.定义

结合推导及收敛性分析，得出算法定义：
$\begin{aligned} \text{Repeat}&&d^k&=-\big(\nabla^2 f(x^k)\big)^{-1}\nabla f(x^k)\\ &&\alpha_{\max}&\ge\alpha\ge0\\ &&x^{k+1}&=x^k+\alpha^kd^k\\ \text{Until Convergence or}&&-\nabla f^T(x^k)\big(\nabla^2f(x^k)\big)^{-1}\nabla f(x^k)&\le\epsilon \end{aligned}$

4.性质

若 $\|\nabla f(x)\|_2>\eta$ ，此时称为 $\text{Damped Newton Phase}$ 阻尼牛顿段，此时函数下降比较慢。
若 $\|\nabla f(x)\|_2<\eta$ ，此时二次收敛，下降较快。

所以牛顿法是一个先下降比较快，后下降比较慢的方法。

二、拟牛顿法（ $\text{Quasi-Newton Method}$ )

当 $\text{Hassan}$ 矩阵不好求时，我们可以用其它矩阵替换：
$\begin{aligned} \nabla^2 f(x^k)d^k&=-\nabla f(x^k)\\ \textbf Bd^k&=-\nabla f(x^k) \end{aligned}$
使用 $\text{BFGS}$ 法求矩阵。

三、无约束优化算法总结

每种算法实际上都是在求方向，求步长的方法就是精确步长和不精确步长。
$\begin{aligned} 一般的一阶方法，当一阶偏导可求时。最速是一个更广义的梯度下降法:&&&\\ \text{Gradient descent:}&&d^k&=-\nabla f(x^k)\\ \text{Steepest descent:}&&d^k&=\arg\min_{\|v\|=1}\lbrace \nabla f^T(x^k)v\rbrace\\ 对收敛速度不关心，设计简单算法时:&&&\\ \text{Coordinate descent}&&&\\ 目标函数凸但不是一阶可微时:&&&\\ \text{Subgradient descent}\\ 对问题有一个很好的初始值时:&&&\\ \text{Newton's Method:}&&d^k&=-\big(\nabla^2 f(x^k)\big)^{-1}\nabla f(x)\\ \end{aligned}。\\$