李宏毅机器学习复习——第三章:梯度下降

本文探讨了梯度下降法在模型优化中的关键,重点讲解了学习率的适当选择,如adagrad方法如何根据参数变化动态调整。特征缩放的重要性也被提及,有助于加速损失函数收敛。同时揭示了梯度下降的局限性,尤其是在局部最优解的问题上。
摘要由CSDN通过智能技术生成

概述


梯度下降是寻找最小的损失函数的一种方法。
选择合适的参数,可以更加顺利地降低损失函数,找到模型的最优解。

参数调整

在使用这个方法中,学习率这个参数很重要,学习率高,往往容易‘略过’最小的损失函数。学习率低,损失函数降低不明显。
adagrad方法是改变学习率的一种方式。主要通过损失函数参数变化程度来影响学习率。一个参数的一次微分 / 它自身的二次微分,用来消除参数之间变化的不同,对学习率的影响。
特征对损失函数的影响。降低特征的影响就可以使用特征缩放功能。feature scaling,特征缩放可以使损失函数更容易收敛。

梯度下降的局限

梯度下降的缺点:可能只能找到局部最优解。如果使凸优化问题,就可以找到最优解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值