李宏毅机器学习课程3~~~梯度下降法

本文详细探讨了梯度下降法在寻找最优目标函数中的应用,包括参数更新过程、学习率的调整策略,如Adagrad、RMSProp和Momentum。通过可视化展示了不同学习率对损失函数的影响,强调了正确调整学习率的重要性,同时讨论了局部极值、鞍点问题及其在深度学习中的挑战。
摘要由CSDN通过智能技术生成

梯度下降法描述


这里写图片描述

这里写图片描述

梯度下降法是为了找到最优的目标函数,寻找的过程就是沿着损失函数下降的方向来确定参数变化的方向。参数更新的过程就是一个不断迭代的过程,每次更新参数学到的函数都会使得误差损失越来越小,也就是说学习到的参数函数越来越逼近最优函数。

这里写图片描述

参数的更新是按照损失函数的等高线的方向进行的。

梯度下降是一阶导数,梯度下降是用平面来逼近局部。
牛顿法是二阶导数,牛顿法是用曲面逼近局部。


梯度下降法调整学习速率


这里写图片描述

可视化:参数更新的变化与损失的变化情况。蓝色线表示的是学习率太小,导致损失下降太慢。绿色线表示的是学习速率变大,损失很快就变小,但是后面有卡住了,损失不在变化。黄色线表示的是学习速率太大,直接导致损失爆炸。红色的线是理想的学习速率。

这里写图片描述

一般情况,在刚开始的时候,可以设置比较大的学习速率,这样可以快速接近最优的函数。经过几epochs后,我们会接近最优的函数,这时可以降低学习速率,来确定最终的参数。

不同的参数不同的学习速率。


梯度下降法Adagrad调整学习速率


调节学习率方法一,Adagrad

这里写图片描述

这里写图片描述

这里写图片描述

Adagrade的具

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值