李宏毅机器学习 Gradient Descent

  在给定的函数空间中求解最佳函数,本质上是一个最优化问题,即求损失函数最小值对应的参数,然后将参数对应得到最佳函数。一种方法是解析解,但在机器学习中更加常用的是利用梯度下降求最小值。

  如果大家想更加深入的学习梯度下降的相关内容,建议大家学习paper,标题为An overview of gradient descent optimization algorithms,下载地址为 https://arxiv.org/abs/1609.04747 或 https://download.csdn.net/download/herosunly/11153936。

1. 梯度下降回顾

在这里插入图片描述
在这里插入图片描述

2. 梯度下降的几个tips

2.1 调整学习率

  下图是参数和损失值的曲线。但对于每一条曲线而言,比如Very Large,选用一个(抽样选择)非常大的学习率,然后绘制出的黄色曲线。
在这里插入图片描述

2.1.1 时间衰减的学习率

  时间衰减的学习率指的是随着时间增加,学习率逐渐减少。
在这里插入图片描述

2.1.2 Adagrad

  Adagrad的核心思想是在时间衰减后除以之前偏导平方和的平方根。
可参考文献地址为:
http://seed.ucsd.edu/mediawiki/images/6/6a/Adagrad.pdf
http://courses.cs.washington.edu/courses/cse547/15sp/slides/adagrad.pdf
在这里插入图片描述
在这里插入图片描述
公式化简后的Adagrad:
在这里插入图片描述
表面看起来分子和分母会对step的影响起到相反的作用。
在这里插入图片描述
下图表示了两种情况,一种是从小到特别大,一种是从大到特别小。我们逐个来分析:

  1. 从小到特别大,分子变特别大了,分母是小和特别大的平方和的平方根,所以从小往大偏移了一段(变大了),所以此时分子的影响会更大,所以step会变大,但变大的幅度没有那么大。
  2. 从大到特别小,分子变特别小了,分母是大和特别小的平方和的平方根,所以从大往小偏移了一段(变小了),所以此时分子的影响会更大,所以step会变小,但变小的幅度没有那么大。
    在这里插入图片描述
    梯度越大,所需要的步幅越大?前提条件是同一个参数。
    在这里插入图片描述
    跨参数就会得到错误的结论,如下图所示:
    在这里插入图片描述
    通过二阶导数和一阶导数,可以更快的接近最低点。
    在这里插入图片描述
      结合下图,解释最佳步幅:
      在w1方向上,二次微分是比较小的,因为比较平滑;在w2方向上,二次微分比较大,因为比较尖。所以对于每个参数而言,需要单独考虑其一阶导数和二阶导数,才能求得到最低点的最佳步幅。但该图的损失函数均为二次函数,如果不是二次函数,可能就不是 s t e p = ∣ F i r s t d e r i v a t i v e ∣ S e c o n d d e r i v a t i v e step=\frac{|First \quad derivative|}{Second \quad derivative} step=SecondderivativeFirstderivative
    在这里插入图片描述
    为什么分母代表二阶导数,这一点还需后续进一步研究,暂且放下了。
    在这里插入图片描述

2.2 随机梯度下降

  根据计算梯度的样本个数,可分为批量梯度下降(全部样本)、小批量梯度下降(batch个数的样本)、随机梯度下降(单个样本)。
在这里插入图片描述
在这里插入图片描述

2.3 特征缩放

  特征缩放分为两种方法:归一化和标准化。
在这里插入图片描述
下图为归一化前后的对比结果。
在这里插入图片描述
下图为标准化的表达式:
在这里插入图片描述

3. 梯度下降理论

3.1 可适用的范围

  下列命题并不是恒成立的,比如遇到鞍点或者极值点(但不是最小值点)。
在这里插入图片描述

3.2 数学简要证明

  梯度下降的方法如下图所示:每次在一个小的领域内,得到最小值。然后行进到最小值点。
在这里插入图片描述

3.2.1 泰勒公式

在这里插入图片描述
阶次越高,则和f(x)越接近。
在这里插入图片描述
多元变量的泰勒公式表示和近似表示
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
将公式进行变换后:
在这里插入图片描述
得到最终的梯度下降公式:
在这里插入图片描述

  • 17
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

herosunly

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值