Training/Lr Schedules说明

最新推荐文章于 2024-11-08 21:59:36 发布

没有灵魂的工具人

最新推荐文章于 2024-11-08 21:59:36 发布

阅读量2.9k

点赞数 13

分类专栏：深度学习笔记文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43002433/article/details/120365963

版权

深度学习笔记专栏收录该内容

3 篇文章

订阅专栏

文章目录

Training/Lr Schedules说明

Training/Lr Schedules说明

我们经常在论文中的描述或开源项目中的表格对比中可以看到 $\text{1x}/\text{2x}/\text{3x} \space \text{training/lr schedule}$ 这样的关键词，下面就对此关键词进行简单的解释说明。

ps：下文中所说的epoch，如果没有特别说明，则默认是指在coco_2017_train训练集上迭代的epoch。

Detectron中的Training Schedules

首先，这个关键词最早出现在Detectron中，在Detectron框架中使用了3种 $\text{training schedules}$ ，具体如下（原文解释如图）：

$\text{1x}$ ：对于batch size为16时， $\text{1x}$ 的训练策略表示初始学习率为 $L R = 0.02$ ，并在60K和80K次迭代后分别衰减为之前的0.1，最后在90K次迭代完成后结束训练。 $\text{1x}$ 的训练策略大约在118287张图片的coco_2017_train训练集上迭代了12.17个epochs。
$\text{2x}$ ： $\text{2x}$ 的训练策略是 $\text{1x}$ 的训练策略的两倍，学习率衰减的的迭代点按比例缩放，即在120K和160K次迭代后分别衰减为之前的0.1。
$\text{s1x("stretched 1x")}$ ：这种策略将 $\text{1x}$ 的训练策略缩放大约1.44倍，并延长了第一次学习率衰减前迭代的时间。具体地，在100K和120K次迭代后分别衰减为之前的0.1，最后在130K次迭代完成后结束训练。

在这里插入图片描述

在Detectron中，所有的训练策略都先经过一个500次迭代的线性学习率warm up。

在Detectron2中，大部分的模型的训练采用的是 $\text{3x}$ 的训练策略（即大约训练37个epochs，在210K和250K次迭代后学习率分别衰减为之前的0.1）。

MMDetection中的Training Schedules

MMDetection采用了与Detectron相似的训练策略，不同的是MMDetection以epoch为基准（Detectron中以iteration为基准），故在MMDetection中， $\text{1x}$ 代表12个epochs， $\text{2x}$ 代表24个epochs， $\text{3x}$ 代表36个epochs。

References

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。