梯度下降法和牛顿法的比较

梯度下降和牛顿法的推导均与泰勒公式有关,所以先介绍泰勒展开公式:
基本形式:

上面这个迭代形式将应用到下面的梯度下降和牛顿法中。

一、梯度下降

梯度下降法应用一阶泰勒展开,假设L(θ)代表损失函数,目标:最小化损失函数,θ是需要更新的模型参数。下面公式中alpha是步长(学习率),可以直接赋值一个小的数,也可以通过line search。

二、牛顿法

牛顿法应用二阶泰勒展开,目标:最小化损失函数

优缺点对比:

1.梯度下降法:通过梯度方向和步长,直接求解目标函数最小值时的参数。
越接近最优值时,步长应该不断减小,否则会在最优值附近来回震荡。
2.牛顿法:
优点:通过求解目标函数的一阶导数为0时的参数,进而求出目标函数最小值时的参数。收敛速度很快。

牛顿法:二阶收敛,梯度下降:一阶收敛,所以牛顿法更快。
比如想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光更长远,所以少走弯路;梯度下降法只考虑局部最优,没有全局思想。)

从几何说,牛顿法是用一个二次曲面拟合你当前所处位置的局部曲面,梯度下降法是用一个平面去拟合当前局部曲面,通常情况下,二次曲面的拟合会比平面更好,所以牛顿法选择的下降路径会更符合真实的最优下降路径。
 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值