自适应学习率和分类-Datawhale X 李宏毅苹果书 AI夏令营

自适应学习率

临界点:训练网络时,损失函数的下降通常在接近一个临界点时放缓。此时,随着学习的进行,损失函数的变化越来越小,训练速度减缓。

学习率:不同的学习率会影响梯度下降的速度和方向,过大的学习率可能会导致模型训练不稳定。

AdaGrad

算法原理:AdaGrad根据以往梯度平方和的大小动态调整学习率,使得频繁更新的参数的学习率降低,减少学习的抖动性。

改进:RMSProp在AdaGrad的基础上引入了指数加权移动平均的概念,使得学习率可以在整个训练过程中保持稳定,解决了AdaGrad在长时间训练后学习率过低的问题。

Adam优化器:综合了AdaGrad和RMSProp的优点,通过计算梯度的一阶矩估计和二阶矩估计,对学习率进行更为精细的调整,进一步提升了优化效果。

学习率衰减:通过逐渐减少学习率,可以让模型更稳定地接近全局最优点。

优化总结:通过各种学习率调节方法(如AdaGrad、RMSProp、Adam等),模型可以在不同阶段获得最佳的学习效率。尤其是对于需要长期训练的深度学习模型,学习率调度在优化过程中至关重要。

分类

分类和回归的区别:回归是输入一个向量 x,输出 y,目的是让 y尽量接近某个标量;而分类是输出一个标量,并使其准确分类到特定的类别中。

Softmax:分类时常采用 softmax 函数将网络的输出转化为概率分布,从而计算类别 y^与真实标签 y 之间的距离

分类损失:通过计算预测值 y^​ 与真实标签 y之间的距离,得到分类的损失。常用的损失函数包括均方误差和交叉熵损失

使用Softmax优点:Softmax 能更好地处理类别间的距离关系,尤其是在类别间差距较大的情况下,能有效提高分类精度。

结论:均方误差适合于回归任务,而交叉熵则更适合分类任务,尤其是在类别之间差异明显的情况下,交叉熵能更快收敛。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值