最优化牛顿法及其变种

最新推荐文章于 2024-01-01 00:24:22 发布

yichudu

最新推荐文章于 2024-01-01 00:24:22 发布

阅读量1.3k

点赞数

分类专栏：数学概率统计最优化

天天开心

本文链接：https://blog.csdn.net/chuchus/article/details/76567063

版权

数学概率统计最优化专栏收录该内容

44 篇文章 6 订阅

订阅专栏

牛顿法

设f(x)是二次可微实函数, 那么它的二阶泰勒多项式为

ϕ (x) = f (x 0) + f' (x 0) (x - x 0) + 1 2 f'' (x 0) (x - x 0) 2

$\phi(x)=f(x_0)+ f'(x_0)(x-x_0)+\frac 1 2 f''(x_0)(x-x_0)^2$
那么把x换成向量, 则有

ϕ (x) = f (x 0) + \nabla f (x 0) (x - x 0) + 1 2 (x - x 0) T \nabla 2 f (x 0) (x - x 0)

$\phi(x)=f(x_0)+ \nabla f(x_0)(x-x_0)+\frac 1 2 (x-x_0)^T\nabla ^2 f(x_0)(x-x_0)$
其中

∇2f(x0) ∇ 2 f ( x 0 ) $\nabla ^2 f(x_0)$ 是

f(x) f ( x ) $f(x)$ 在

x0 x 0 $x_0$ 处的hesse矩阵.
为求

ϕ(x) ϕ ( x ) $\phi(x)$ 的平稳点, 令

∇ϕ(x)=0 ∇ ϕ ( x ) = 0 $\nabla \phi(x)=0$ . 则有

\nabla f (x 0) + \nabla 2 f (x 0) (x - x 0) = 0

$\nabla f(x_0)+\nabla^2 f(x_0)(x-x_0)=\mathbf 0$
假设hesse矩阵可逆, 则由上式得到 牛顿法迭代公式:

x (k + 1) = x (k) - \nabla 2 f (x (k)) - 1 f (x (k)) (1.4)

$x^{(k+1)}=x^{(k)}-\nabla ^2 f(x^{(k)}) ^{-1} f(x^{(k)}) \tag {1.4}$
其中

∇2f(x(k))−1 ∇ 2 f ( x ( k ) ) − 1 $\nabla ^2 f(x^{(k)}) ^{-1}$ 是hesse矩阵的逆矩阵.

牛顿法至少2级收敛, 收敛速率快于梯度下降法. 特别地, 对于二次凸函数, 用牛顿法经历一次迭代即达极小点.
值得注意, 当初始点远离极小点时, 牛顿法可能不收敛, 因为牛顿方向不一定是下降方向, 经迭代, 目标函数值可能上升.
针对这一问题进行修正, 人们提出了阻尼牛顿法.

阻尼牛顿法

与原始牛顿法的区别在于: 增加了沿牛顿方向的一维搜索.

拟牛顿法

牛顿法需要计算二阶偏导, 而且目标函数的Hesse矩阵可能非正定. 为克服这些问题, 人们提出了拟牛顿法, 基本思想是用不含二阶导数的矩阵A来近似原Hesse矩阵的逆矩阵 $H^{-1}$ .
根据得到近似矩阵A的方法的不同, 拟牛顿法也有不同的变体.

OWL-QN

OWL-QN(orthant-wise Limited-memory Quasi-Newton)
微软提出的算法，该算法是基于L-BFGS算法的可用于求解L1正则的算法。简单来讲，OWL-QN算法是指假定变量的象限确定的条件下使用L-BFGS算法来更新，同时，使得更新前后变量在同一个象限中(使用映射来满足条件)。

参考

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最优化牛顿法及其变种

牛顿法设f(x)是二次可微实函数, 那么它的二阶泰勒多项式为 ϕ(x)=f(x0)+f′(x0)(x−x0)+12f′′(x0)(x−x0)2ϕ(x)=f(x0)+f′(x0)(x−x0)+12f″(x0)(x−x0)2\phi(x)=f(x_0)+ f'(x_0)(x-x_0)+\frac 1 2 f''(x_0)(x-x_0)^2 那么把x换成向量, 则有 ϕ(x)=f(x0)+∇...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。