【Python机器学习】梯度下降法(二)

前言

梯度下降法(Gradient Descent)是机器学习中最常用的优化方法之一,常用来求解目标函数的极值。  
其基本原理非常简单:沿着目标函数梯度下降的方向搜索极小值(也可以沿着梯度上升的方向搜索极大值)。 

《【Python机器学习】梯度下降法(一)》中简单分析了学习率大小对搜索过程的影响,发现:

  • 学习率较小时,收敛到极值的速度较慢。
  • 学习率较大时,容易在搜索过程中发生震荡。

本次介绍“冲量”的原理以及如何用“冲量”来解决上述两个问题。

冲量:momentum

“冲量”这个概念源自于物理中的力学,表示力对时间的积累效应。

在普通的梯度下降法 x += v 中,每次 x 的更新量 v 为 v = - dx × lr,其中dx为目标函数func(x)对x的一阶导数。
当使用冲量时,则把每次x的更新量v考虑为本次的梯度下降量 - dx × lr 与上次x的更新量 v 乘上一个介于 [0, 1] 的因子 momentum 的和,即 v = - dx × lr + v × momemtum。
从公式上可看出:

当本次梯度下降 dx × lr 的方向与上次更新量v的方向相同时,上次的更新量能够对本次的搜索起到一个正向加速的作用。当本次梯度下降 - dx × lr 的方向与上次更新量v的方向相反时,上次的更新量能够对本次的搜索起到一个减速的作用。


完整代码请查看

为了查看momentum大小对不同学习率的影响,此处设置
学习率为lr = [0.01, 0.1, 0.6, 0.9]
冲量依次为momentum = [0.0, 0.1, 0.5, 0.9]
起始位置为x_start = -5
迭代周期为6
测试以及绘图代码,请点击


运行结果如上图所示,每一行的图的学习率lr一样,每一列的momentum一样,最左列为不使用momentum时的收敛情况。

  • 从第一行可看出:在学习率较小的时候,适当的momentum能够起到一个加速收敛速度的作用。
  • 从第四行可看出:在学习率较大的时候,适当的momentum能够起到一个减小收敛时震荡幅度的作用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值