卷积神经网络(四):学习率、权重衰减、动量

学习率、权重衰减、动量被称为超参数,因为他们不是由网络训练而得到的参数

权重衰减

L2正则化就是在代价函数后面再加上一个正则化项:

img

C0代表原始的代价函数,后面那一项就是L2正则化项,λ就是权重衰减项。

作用:防止过拟合

原理

一个所谓“显而易见”的解释就是:更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。当然,对于很多人(包括我)来说,这个解释似乎不那么显而易见,所以这里添加一个稍微数学一点的解释(引自知乎):

过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。

效果

权重衰减项对Wi的导数正比于Wi的值,因此所有Wi在每次迭代中会等比缩小

学习率

这里写图片描述

作用:控制梯度下降的速度

注意点:如果学习速率过小,则会导致收敛速度很慢。如果学习速率过大,那么其会阻碍收敛,即在极值点附近会振荡,因此通常会控制学习率使其在多次迭代后衰减,使得网络可以顺利收敛

动量(Momentum)

这里写图片描述

v表示每次更新的变化量,上一个时刻的变化量乘以的系数γ,就是动量添加的部分。

作用

对于那些当前的梯度方向与上一次梯度方向相同的参数,那么进行加强,即这些方向上更快了;对于那些当前的梯度方向与上一次梯度方向不同的参数,那么进行削减,即在这些方向上减慢了。

原理

从公式上看,相当于每次更新的时候,都会考虑上次的更新值,如果方向一样就变得越来越快,如果方向不同,就会相互抵消,以便收敛。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
为了改动卷积神经网络的优化器,你可以考虑以下几种方法: 1. 更换优化器类型:卷积神经网络常用的优化器包括梯度下降(Gradient Descent)、动量(Momentum)、自适应矩估计(Adagrad)、自适应矩估计的动量法(AdaDelta)、自适应矩估计的RMSprop等。根据你的需求,可以选择不同的优化器。 2. 调整学习率:优化器的学习率决定了参数更新的步幅。如果你觉得当前的学习率过大或过小,可以尝试进行调整。通常,较小的学习率会使收敛速度变慢但可能会得到更好的结果,而较大的学习率可能会加快收敛但可能会导致震荡或无法收敛。 3. 添加正则化项:为了防止过拟合,你可以在优化器中添加正则化项,如L1正则化或L2正则化。这些正则化项有助于限制参数的大小或稀疏化参数,以减少模型的复杂度。 4. 使用学习率衰减学习率衰减可以随着训练的进行逐渐减小学习率。这有助于更好地探索损失函数的空间,特别是在接近最优解时。你可以根据训练的进展情况选择不同的衰减策略,如按固定步长衰减、按指数衰减或根据验证集误差等。 5. 手动调整超参数:优化器还有一些其他的超参数,如动量权重、自适应方法中的累积因子等。你可以尝试手动调整这些超参数,以便更好地适应你的数据集和模型。 请注意,对优化器进行改动可能会对模型的训练和收敛产生影响,因此建议在进行更改之前先进行实验和验证。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值