【Python机器学习】梯度下降法(二)

最新推荐文章于 2022-10-16 09:55:32 发布

置顶 artemis_123

最新推荐文章于 2022-10-16 09:55:32 发布

阅读量928

点赞数

分类专栏： Quant 文章标签： python 机器学习量化 c语言 quant

本文链接：https://blog.csdn.net/artemis_123/article/details/53519166

版权

Quant 专栏收录该内容

19 篇文章 7 订阅

订阅专栏

 
    前言 
   梯度下降法（Gradient Descent）是机器学习中最常用的优化方法之一，常用来求解目标函数的极值。  
其基本原理非常简单：沿着目标函数梯度下降的方向搜索极小值（也可以沿着梯度上升的方向搜索极大值）。

 在《【Python机器学习】梯度下降法(一)》中简单分析了学习率大小对搜索过程的影响，发现：
学习率较小时，收敛到极值的速度较慢。
学习率较大时，容易在搜索过程中发生震荡。

 本次介绍“冲量”的原理以及如何用“冲量”来解决上述两个问题。

 冲量：momentum “冲量”这个概念源自于物理中的力学，表示力对时间的积累效应。 
 在普通的梯度下降法 x += v 中，每次 x 的更新量 v 为 v = - dx × lr，其中dx为目标函数func(x)对x的一阶导数。
 当使用冲量时，则把每次x的更新量v考虑为本次的梯度下降量 - dx × lr 与上次x的更新量 v 乘上一个介于 [0, 1] 的因子 momentum 的和，即 v = - dx × lr + v × momemtum。
 从公式上可看出：
 当本次梯度下降 dx × lr 的方向与上次更新量v的方向相同时，上次的更新量能够对本次的搜索起到一个正向加速的作用。当本次梯度下降 - dx × lr 的方向与上次更新量v的方向相反时，上次的更新量能够对本次的搜索起到一个减速的作用。
 
 
 完整代码请查看：
 为了查看momentum大小对不同学习率的影响，此处设置
 学习率为lr = [0.01, 0.1, 0.6, 0.9]
 冲量依次为momentum = [0.0, 0.1, 0.5, 0.9]
 起始位置为x_start = -5
 迭代周期为6
 测试以及绘图代码，请点击
 
 
 
 运行结果如上图所示，每一行的图的学习率lr一样，每一列的momentum一样，最左列为不使用momentum时的收敛情况。
从第一行可看出：在学习率较小的时候，适当的momentum能够起到一个加速收敛速度的作用。
从第四行可看出：在学习率较大的时候，适当的momentum能够起到一个减小收敛时震荡幅度的作用。

artemis_123

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Python机器学习】梯度下降法(二)

梯度下降法（Gradient Descent）是机器学习中最常用的优化方法之一，常用来求解目标函数的极值。其基本原理非常简单：沿着目标函数梯度下降的方向搜索极小值（也可以沿着梯度上升的方向搜索极大值）。
复制链接

扫一扫