在Imagenet数据集上学习到的一些训练的trick

1.不同batchsize的大小对初始学习率设置的技巧

事实是这样的,和凸优化理论是类似的,如果深度学习中batchsize越大,则GPU在处理每一幅图的时间就会减少,那么每一幅图就会处理的相对粗糙。在相同的epoch下,小batchsize的网络一般会优于大的batchsize的网络。
但是大的batchsize有自己的优势所在,大的batchhsize可以减少数据本身的噪声,因此可以用大的学习率来加快运算,一般当batchsize大小不同时,学习率调整的策略(如原batchsize为1024学习率为0.5,则当batchsize为256时则初始学习率应该等比例的缩小(256/1024)*0.5)

2. label-smoothing

在分类问题中,我们的最后一层一般是全连接层,然后对应标签的one-hot编码,即把对应类别的值编码为1,其他为0。这种编码方式和通过降低交叉熵损失来调整参数的方式结合起来,会有一些问题。这种方式会鼓励模型对不同类别的输出分数差异非常大,或者说,模型过分相信它的判断。但是,对于一个由多人标注的数据集,不同人标注的准则可能不同,每个人的标注也可能会有一些错误。模型对标签的过分相信会导致过拟合.
标签平滑(Label-smoothing regularization,LSR)是应对该问题的有效方法之一,它的具体思想是降低我们对于标签的信任,例如我们可以将损失的目标值从1稍微降到0.9,或者将从0稍微升到0.1。标签平滑最早在inception-v2[4]中被提出,它将真实的概率改造为
在这里插入图片描述
其中,ε是一个小的常数,K是类别的数目,y是图片的真正的标签,i代表第i个类别,q_i是图片为第i类的概率。总的来说,LSR是一种通过在标签y中加入噪声,实现对模型约束,降低模型过拟合程度的一种正则化方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值