自适应学习率
临界点:训练网络时,损失函数的下降通常在接近一个临界点时放缓。此时,随着学习的进行,损失函数的变化越来越小,训练速度减缓。
学习率:不同的学习率会影响梯度下降的速度和方向,过大的学习率可能会导致模型训练不稳定。
AdaGrad
算法原理:AdaGrad根据以往梯度平方和的大小动态调整学习率,使得频繁更新的参数的学习率降低,减少学习的抖动性。
改进:RMSProp在AdaGrad的基础上引入了指数加权移动平均的概念,使得学习率可以在整个训练过程中保持稳定,解决了AdaGrad在长时间训练后学习率过低的问题。
Adam优化器:综合了AdaGrad和RMSProp的优点,通过计算梯度的一阶矩估计和二阶矩估计,对学习率进行更为精细的调整,进一步提升了优化效果。
学习率衰减:通过逐渐减少学习率,可以让模型更稳定地接近全局最优点。
优化总结:通过各种学习率调节方法(如AdaGrad、RMSProp、Adam等),模型可以在不同阶段获得最佳的学习效率。尤其是对于需要长期训练的深度学习模型,学习率调度在优化过程中至关重要。
分类
分类和回归的区别:回归是输入一个向量 x,输出 y,目的是让 y尽量接近某个标量;而分类是输出一个标量,并使其准确分类到特定的类别中。
Softmax:分类时常采用 softmax 函数将网络的输出转化为概率分布,从而计算类别 y^与真实标签 y 之间的距离
分类损失:通过计算预测值 y^ 与真实标签 y之间的距离,得到分类的损失。常用的损失函数包括均方误差和交叉熵损失
使用Softmax优点:Softmax 能更好地处理类别间的距离关系,尤其是在类别间差距较大的情况下,能有效提高分类精度。
结论:均方误差适合于回归任务,而交叉熵则更适合分类任务,尤其是在类别之间差异明显的情况下,交叉熵能更快收敛。