epoch训练时间不同_二阶优化！训练ImageNet仅需35个Epoch

最新推荐文章于 2024-06-22 09:42:04 发布

weixin_39694838

最新推荐文章于 2024-06-22 09:42:04 发布

阅读量186

点赞数

文章标签： epoch训练时间不同

本文链接：https://blog.csdn.net/weixin_39694838/article/details/112949977

版权

原标题：二阶优化！训练ImageNet仅需35个Epoch

选自arXiv

作者：Kazuki Osawa 等

在「x 分钟训练 ImageNet」问题上，人们通常采用的方法是增加批大小并加大算力。随着 ResNet-50 在 ImageNet 上的训练时间已用秒计，人们开始转向其他研究方向。来自东京工业大学的研究者近日采用二阶方法，实现了和优化 SGD 类似的准确率和效率。

随着神经网络的尺寸和训练数据的持续增长，人们对分布式计算的需求也逐渐增大。在深度学习中实现分布式并行的常用方式是使用数据并行方法，其中数据被分配进不同进程中，而模型在这些进程中重复。当每个模型的 mini-batch 大小保持不变，以增加计算/通信比时，整个系统上的 mini-batch 大小会随着进程数量成比例增长。

在 Mini-batch 大小超过某一点之后，验证准确率就会开始下降。这一大尺寸 mini-batch 泛化限制广泛见于学习不同的模型和数据集的情况中，Hoffer 等人曾将这种限制归因于更新的限制，同时建议进行更长的训练。这引出了增大学习率，并成比例增加 mini-batch 的方向，同时在训练的前几个 epoch 里逐渐增加学习率。这种方法可以让训练 mini-batch 达到 8k，在使用 ResNet-50 训练 ImageNet 时可以达到训练 90 epoch，达到 76.3% 的 top-1 验证准确率。将这种学习速率方法与其他的一些技术，如 RMSprop warm-up、无动平均的批归一化，以及缓速启动学习率策略等技术结合，Akiba 等人曾经实现在相同的数据集和模型上，batch size 32k 的情况下，在 15 分钟时间里实现 74.9% 的准确率。

当然&#x

最低0.47元/天解锁文章

weixin_39694838

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
epoch训练时间不同_二阶优化！训练ImageNet仅需35个Epoch

原标题：二阶优化！训练ImageNet仅需35个Epoch选自arXiv作者：Kazuki Osawa 等在「x 分钟训练 ImageNet」问题上，人们通常采用的方法是增加批大小并加大算力。随着 ResNet-50 在 ImageNet 上的训练时间已用秒计，人们开始转向其他研究方向。来自东京工业大学的研究者近日采用二阶方法，实现了和优化 SGD 类似的准确率和效率。随着神经网络的尺寸和训练数据...
复制链接

扫一扫