[学习日志]深度学习-李宏毅 梯度下降

Adagrad方法-动态改变梯度下降的学习率

在这里插入图片描述
在这里插入图片描述

最佳步长

在这里插入图片描述
与最优解的距离和一次导数成正比。与二次导数成反比。

Adagrad和最优步长的关系

以平方和的开方代替了二次微分(性质上接近)

Stochastic Gradient Decent 随机梯度下降

在这里插入图片描述
区别: 看20个数据走一步 、 看1个数据走一步(进行20次)
优点: 降低求导的复杂度

特征缩放(归一化)

在这里插入图片描述

在这里插入图片描述
意义:对于不同参数,学习率是相同的。如果两个微分大小相差过大,一个学习率就很难做到很好的统一。(对于平缓的微分,学习率应该大。对于陡峭的微分,学习率应该小。这两者是不能同步的)

梯度下降法的由来

泰勒展开后的求最值问题,很妙呢。

梯度下降的缺点-梯度消失

局部最优、平台、顶点

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值