梯度下降策略

梯度下降原理

    直观解释比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

    从上面的解释可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。当然,如果损失函数是凸函数,梯度下降法得到的解就一定是全局最优解。

 

梯度法思想的三要素:出发点、下降方向、下降步长。

 

引入:当我们得到一个目标函数后,如何进行求解?

直接求解?(并不一定可解,线性回归可以当做是一个特例)

 

常规套路:机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是正确的(目标函数),然后让它朝着这个方向去做

 

如何优化:一口吃不成个胖子,我们要静悄悄的一步一步完成迭代

举个栗子:

    目标函数:

     目的:寻找山谷的最低点,也就是我们的目标函数终点(什么样的参数能使得目标函数达到极值点)

     下山分几步走呢?(更新参数)

     (1)找到当前最合适的方向

     (2)走那么一小步,求解当前位置梯度

     (3)按照方向与步伐去更新我们的参数

 

梯度下降方法对比

 

梯度下降,目标函数:

批量梯度下降:

参数θ的每次更新,需要 计算全部数据集的样本的负梯度方向,取均值作为下一次梯度下降的方向。

    

特点:

    计算量大,参数更新慢,对内存的要求很高,不能以在线的形式训练模型,也就是运行时不能加入新样本

    理论上讲,可以得到全局最优解,参数更新比较稳定,收敛方向稳定

 

随机梯度下降:

每次只选择一个样本来求得偏导,进行参数θ的更新。

特点:

    运算速度很快,同时能够在线学习

    随机梯度下降参数更新的过程震荡很大,目标函数波动剧烈,参数更新方向有很大的波动

    其较大的波动可能收敛到比批量梯度下降更小的局部极小值,因为会从一个极小值跳出来

 

小批量梯度下降法:

该方法集合了批量梯度下降和随机梯度下降两者的优势,每次的参数更新利用一小批数据来完成。

 

特点:

    降低了更新参数的方差,使得收敛过程更加的稳定

    能够利用高度优化的矩阵运算,很高效的求得每小批数据的梯度

 

学习率对结果的影响

学习率(步长):对结果产生巨大的影响,一般要小一些。学习速率的选择,可以尝试0.001、0.01、0.1、1。选择一个最大的学习速率,然后选择一个比它小一点点的学习率,通常能够找到最合适的学习速率来解决我们的问题。

 

批处理数量:32,64,128都可以,一般还要考虑内存和效率。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值