梯度下降的技巧和原理 |李宏毅机器学习【4】

本文介绍了梯度下降法在机器学习中的应用,包括梯度的概念和作用,以及调整学习速率、使用随机梯度下降和特征缩放等优化技巧。文章还探讨了梯度下降的数学原理,通过泰勒展开式解释了为什么梯度反方向是损失函数下降最快的方向。同时,指出了梯度下降可能遇到的问题,如局部极小值、鞍点和平台区域,鼓励读者深入学习以应对这些挑战。
摘要由CSDN通过智能技术生成

在很多机器学习损失函数(Loss Function)最小化的计算中,梯度下降是一种适用范围广泛且效果稳定的方法。

梯度(Gradient):  函数对所有变量分别求偏导得到的vector,几何意义是Loss  function等高线的法线方向。梯度方向可以简单理解为函数上升最快的方向,负梯度方向就是函数下降最快的方向,所以利用梯度求函数最优值的方法就称作梯度下降法。

 

沿着梯度的反方向不断迭代,就可以得到使Loss更小的模型参数,但这个过程往往不是一帆风顺的。

下面是使用Gradient Descent很实用的 3个Tip!

Tip 1: Tuning your learning rates 调整学习速率η

下方右图展示了η为偏大、偏小、恰好几种情况时,Loss减小的趋势。可以看到η偏小导致学习速度慢,η偏大则可能震荡导致无法收敛到最优解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值