Training/Lr Schedules说明

Training/Lr Schedules说明

我们经常在论文中的描述或开源项目中的表格对比中可以看到 1x / 2x / 3x training/lr schedule \text{1x}/\text{2x}/\text{3x} \space \text{training/lr schedule} 1x/2x/3x training/lr schedule这样的关键词,下面就对此关键词进行简单的解释说明。

ps:下文中所说的epoch,如果没有特别说明,则默认是指在coco_2017_train训练集上迭代的epoch。

Detectron中的Training Schedules

首先,这个关键词最早出现在Detectron中,在Detectron框架中使用了3种 training schedules \text{training schedules} training schedules,具体如下(原文解释如图):

  • 1x \text{1x} 1x:对于batch size为16时, 1x \text{1x} 1x的训练策略表示初始学习率为 L R = 0.02 LR=0.02 LR=0.02,并在60K和80K次迭代后分别衰减为之前的0.1,最后在90K次迭代完成后结束训练。 1x \text{1x} 1x的训练策略大约在118287张图片的coco_2017_train训练集上迭代了12.17个epochs。
  • 2x \text{2x} 2x 2x \text{2x} 2x的训练策略是 1x \text{1x} 1x的训练策略的两倍,学习率衰减的的迭代点按比例缩放,即在120K和160K次迭代后分别衰减为之前的0.1。
  • s1x("stretched 1x") \text{s1x("stretched 1x")} s1x("stretched 1x"):这种策略将 1x \text{1x} 1x的训练策略缩放大约1.44倍,并延长了第一次学习率衰减前迭代的时间。具体地,在100K和120K次迭代后分别衰减为之前的0.1,最后在130K次迭代完成后结束训练。

在这里插入图片描述

在Detectron中,所有的训练策略都先经过一个500次迭代的线性学习率warm up。

在Detectron2中,大部分的模型的训练采用的是 3x \text{3x} 3x的训练策略(即大约训练37个epochs,在210K和250K次迭代后学习率分别衰减为之前的0.1)。

MMDetection中的Training Schedules

MMDetection采用了与Detectron相似的训练策略,不同的是MMDetection以epoch为基准(Detectron中以iteration为基准),故在MMDetection中, 1x \text{1x} 1x代表12个epochs, 2x \text{2x} 2x代表24个epochs, 3x \text{3x} 3x代表36个epochs。

References

  • 9
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值