最优化中的牛顿法,二阶收敛性

最近偶尔翻阅一本写的不错的最优化理论教材,该书讲得很详细,很透彻。我对非线性规划理论又有了全新的认识,发现牛顿法可以说是是无约束优化中最重要的方法,其他方法:LM方法,高斯牛顿,拟牛顿法,共轭梯度法可以说是对牛顿法的扩展。准备闲来无事时将牛顿法的原理以及求解过程用数例好好再过一遍。
 

适用对象:二阶可微函数

1. 牛顿法的几何意义本质

       在原函数的某一点处用一个二次函数近似原函数,然后用这个二次函数的极小值点作为原函数的下一个迭代点。

上面这句话也说明,若原函数本身是一个二次函数,则牛顿法一步就能到达极小点或鞍点。若原函数本身是一个二次正定函数,则牛顿法一步到达最小值点。

2. 牛顿法的代数意义

梯度与黑塞矩阵分别由下列符号表示:

g_k=\triangledown f(x)

G_k=\triangledown^2 f(x)

设任意点为 Xk,下个一迭代点位 Xk+Sk, 该迭代点在 Xk 处的二阶泰勒展开式为:

f(x_k+s_k)=f(x_k)+g_k^Ts_k+\frac{1}{2}s_k^TG_k^Ts_k+o(\|s_k^2\|)

用下个迭代点的值代替该点的值(其实就是让二阶泰勒展开式的一阶导数为零,也可以得到下面的迭代方向),即:

f(x_k+s_k)=f(x_k)

因此:

0=g_k^Ts_k+\frac{1}{2}s^T_kG_k^Ts_k

所以,迭代方向为:

s_k=-G^-_kg_k

该方向又称作牛顿方向。

3. 牛顿法的二阶收敛性

若初始点 x0 充分靠近极值点 x*,并且极值点 x* 的黑塞矩阵非奇异,并且黑塞矩阵在极值点附近 Lipschitz 连续,则牛顿法具有二阶收敛性。

注:Lipschitz 连续是一种比普通连续性更强的连续,它限制了函数的改变速度。对于函数可行域的任意两点,存在一个常数 K,使得:

|f(a)-f(b)|\leq K|a-b|

证明:

由黑塞矩阵的非奇异性与连续性知道,在 x*附近,存在一个常数 M,对于任意的 k,使得

\|G^{-1}_{k}\|\leq M

而:

\|x_{k+1}-x^{*}\|=\|x_{k}-G_{k}^{-1}g_{k}-x^{*}\|\nonumber\\=\|x_{k}-x^{*}-G^{-1}_{k}g_{k})\|\nonumber\\=\|G^{-1}_{k}\|*\|G_{k}(x_{k}-x^{*}-g_{k}+g(x^{*}))\|\nonumber

上式右端成立,是因为 g(x*)=0。继续:

\|x_{k+1}-x^{*}\|\leq M\|G_{k}(x_{k}-x^{*})-g_{k}+g(x^{*})\|\nonumber\\=M\left\|G_{k}(x_{k}-x^{*})-\int_{0}^{1}(x_{k}-x^{*})G\left(x^{*}+t(x_{k}-x^{*})\right)dt\right\|\nonumber\\=M\left\|\int_{0}^{1}(x_{k}-x^{*})\left[G_{k}-G(x^{*}+t(x_{k}-x^{*}))\right]dt\right\|\nonumber

上式是因为:

g_{k}-g(x^{*})=\int_{0}^{1}(x_{k}-x^{*})G\left(x^{*}+t(x_{k}-x^{*})\right)dt

继续,再利用到 Lipstchitz 连续,得到:

\|x_{k+1}-x^{*}\|\leq MK\|x_{k}-x^{*}\|^{2}\int_{0}^{1}(1-t)dt\nonumber\\=\frac{1}{2}MK\|x_{k}-x^{*}\|^{2}

因此,牛顿迭代法二阶收敛。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心态与习惯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值