论文阅读 - 大batch_size训练时保证精度的LARS方法

最新推荐文章于 2024-06-24 15:01:40 发布

__Sunny__

最新推荐文章于 2024-06-24 15:01:40 发布

阅读量2.2k

点赞数 1

分类专栏： ML/DL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s_sunnyy/article/details/79869714

版权

本文介绍了LARS（Layer-wise Adaptive Rate Scaling）算法，这是一种解决大batch size训练导致模型精度下降的问题。通过层自适应的学习率调整，LARS允许在不牺牲准确性的情况下，将AlexNet和ResNet-50的batch size显著扩大。相关论文和实现已在GitHub上公开，NVIDIA也在nvcaffe中整合了这一方法。

摘要由CSDN通过智能技术生成

阅读了Yang You等的系列论文（现在才发现其实以下四篇实际是两篇。。）

1. Scaling SGD Batch Size to 32K for ImageNet Training. https://arxiv.org/abs/1708.03888v1

2. Large Batch Training of Convolutional Networks. https://arxiv.org/abs/1708.03888v3

3. 100-epoch ImageNet Training with AlexNet in 24 Minutes. https://arxiv.org/abs/1709.05011v1

4. ImageNet training in minutes. https://arxiv.org/abs/1709.05011v10

加速大型卷积网络训练的一种常见方法是增加计算单元，随着节点数量的增加，batch size增长。但是，大batch size训练通常会导致模型精度低。我们认为目前大批量训练（线性学习速率缩放与预热，在Facebook的文章中有描述：Accurate, Large Min

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。