Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour -- Facebook

最新推荐文章于 2022-03-23 10:37:03 发布

eunicechen

最新推荐文章于 2022-03-23 10:37:03 发布

阅读量331

点赞数

分类专栏：机器学习文章标签： deeplearning SGD batch_size parallel

本文链接：https://blog.csdn.net/eunicechen/article/details/84637396

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

https://news.developer.nvidia.com/facebook-trains-imagenet-in-1-hour/

https://arxiv.org/abs/1706.02677

解决问题：在大规模并行计算的情况下，只有充分利用了GPU资源，才能保证并行加速的效率，但这样会带来由于total batch_size很大，造成的训练模型泛化能力变低、精度减少的现象。于是Facebook提出了这样的解决方案，在大batch_size的情况下如何调整超参和lr，帮助训练模型的准确率和泛化能力，并在imagenet的数据上得到的验证。

摘要：深度学习随着大型神经网络和大型数据集的出现而蓬勃发展。然而，大型神经网络和大型数据集往往需要更长的训练时间，而这正好阻碍研究和开发进程。分布式同步 SGD 通过将小批量 SGD（SGD minibatches）分发到一组平行工作站而提供了一种很具潜力的解决方案。然而要使这个解决方案变得高效，每一个工作站的工作负载必须足够大，这意味着 SGD 批量大小会有很大的增长（nontrivial growth）。在本论文中，我们经验性地展示了在 ImageNet 数据集上使用较大批量大小在优化上遇到的困难，但如果这个问题解决了，训练的神经网络会展现出很好的泛化性能。具体来说，当我们使用较大批量大小（达 8192 张图片）进行训练时，实验几乎没有精度损失。为了实现这一结果，我们采用了线性缩放规则（linear scaling rule）作为批量大小函数来调整学习率，同时我们开发了一种新的预热方案（warmup scheme），该方案会在训练前期克服优化的困难。通过这些简单的技术，我们基于 Caffe2 的系统可以使用批量大小为 8192 进行训练 ResNet-50 网络，该训练不仅在 256 块 GPU 上只花费一小时就能完成，同时还有匹配小批量的精度。在使用标准硬件从 8 到 256 块 GPU 调整时，我们的实现达到了 90% 以上的缩放效率（scaling efficiency）。该系统能使我们针对大型互联网数据高效地执行视觉识别任务。

1. Large Minibatch SGD:

momentum

1.1 Learning rate for large minibatches:

Linear Scaling Rule: When minibatch size is multiplied by k, multiply the learning rate by k;

eunicechen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour -- Facebook

https://news.developer.nvidia.com/facebook-trains-imagenet-in-1-hour/https://arxiv.org/abs/1706.02677解决问题：在大规模并行计算的情况下，只有充分利用了GPU资源，才能保证并行加速的效率，但这样会带来由于total batch_size很大，造成的训练模型泛化能力变低、精度减少的现象。于是F...
复制链接

扫一扫