牛顿法总结

这里总结一个利用二价导数来求最优解的方法-牛顿法:

设: f ( X ) f(X) f(X) 是一个多维函数,由taylor 二阶展开,我们有,

f ( X ) ≈ f ( X 0 ) + ( X − X 0 ) ∇ f ( X 0 ) + ( X − X 0 ) ∇ 2 f ( X 0 ) ( X − X 0 ) 2 f(X) \approx f(X_0)+(X-X_0)\nabla f(X_0) + \frac{(X-X_0)\nabla^2 f(X_0)(X-X_0)}{2} f(X)f(X0)+(XX0)f(X0)+2(XX0)2f(X0)(XX0)

X X X 求导,并设置为0,我们有

0 = ∇ f ( X 0 ) + ( X − X 0 ) ∇ 2 f ( X 0 ) ( X − X 0 ) X = − ∇ f ( X 0 ) ∇ 2 f ( X 0 ) X 0 \begin{aligned} 0&=\nabla f(X_0) + (X-X_0) \nabla ^2 f(X_0) (X- X_0)\\ X&=-\frac{\nabla f(X_0)}{\nabla^2 f(X_0)} X_0 \end{aligned} 0X=f(X0)+(XX0)2f(X0)(XX0)=2f(X0)f(X0)X0

相当于将梯度下降的learning rate设置为 ( ∇ 2 f ( X 0 ) ) − 1 (\nabla^2 f(X_0))^{-1} (2f(X0))1

note

  1. 显然牛顿法计算量更大,因为他需要计算 hessian矩阵,相对于梯度下降来说这是 n 2 n^2 n2
  2. 牛顿法收敛率更快 O ( t − 2 ) O(t^{-2}) O(t2),梯度下降是 O ( t − 1 ) O(t^{-1}) O(t1)

版权声明

本作品为作者原创文章,采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

作者: taotao
原始link: https://zouzhitao.github.io/posts/newton-method/
转载请保留此版权声明,并注明出处

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值