【Cite 1.7K】Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

最新推荐文章于 2022-02-10 01:45:36 发布

songyuc

最新推荐文章于 2022-02-10 01:45:36 发布

阅读量167

点赞数

文章标签：深度学习神经网络 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyuc/article/details/119950877

版权

1 介绍

此文章是我在NFNet上读到的论文，NFNet论文通过引用这篇论文介绍如何在不使用归一化的情况下训练ImageNet任务模型；

2 原文链接

《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》

3 论文译读

深度学习在拥有大型模型和大规模数据集下蓬勃发展。然而，更大的神经网络和数据集会导致更长的训练时间，于是阻碍进一步的研究和开发。分布式同步SGD为该问题提供了一个潜在的解决方案，将SGD微批次分配到并行进程池上运行。然而，为了发挥该架构的有效性，每个进程的工作负载必须很大，才能使SGD微批次的大小获得较大的增长。在本文中，我们通过实验证明了在ImageNet数据集上大的minibatche也会存在优化困境，不过这些问题不需要担心，因为训练后的网络显示出良好的泛化性能。具体来说，作者需要证实在8192批次大小进行训练的情况下也不会有精度的损失。为了实现这个这个目标，作者使用了一种无超参的线性增长规则来调节学习率，将学习率设置成基于批次大小的函数，以及提出一种新的预热策略来克服训练早期中的优化问题。通过使用这些简单的技巧，作者基于Caffe2使用批次大小8192来在256个GPU上训练对ResNet-50训练一个小时，其精度与使用较小批次训练的结果相当。在使用商用GPU的情况下，作者实现了约90%的效率的增长，将训练从8个GPU迁移到了256个GPU上。本文的发现可以使得高效训练互联网级别的数据成为可能。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Cite 1.7K】Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

1 介绍此文章是我在NFNet上读到的论文，NFNet论文通过引用这篇论文介绍如何在不使用归一化的情况下训练ImageNet任务模型；2 原文链接《Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour》3 论文译读深度学习在拥有大型模型和大规模数据集下蓬勃发展。然而，更大的神经网络和数据集会导致更长的训练时间，于是阻碍进一步的研究和开发。分布式同步SGD为该问题提供了一个潜在的解决方案，将SGD微批次分配到并行进程池上运行。然而，为了
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。