论文浏览(30) Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

最新推荐文章于 2022-03-23 10:37:03 发布

清欢守护者

最新推荐文章于 2022-03-23 10:37:03 发布

阅读量339

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/107650918

版权

CV 专栏收录该内容

98 篇文章 21 订阅

订阅专栏

文章目录

0. 前言

相关资料：
- arxiv
- github
- 论文解读，知乎讨论
论文基本信息
- 领域：分布式训练
- 作者单位：Facebook
- 发表时间：2017.6

1. 要解决什么问题

分布式训练中的一些细节。
- 这里指的分布式训练是 Distributed synchronous SGD

2. 用了什么方法

总而言之，本文就是观察到了一些现象，然后根据经验进行了一些优化。
在ImageNet上训练时，如果batch size增加会提升训练难度。但如果克服了这些困难，那么模型的泛化能力会提高。
提出了 Linear Scaling Rule
- 当 minibatch size 的变化倍数为k时，学习率也要变化k倍，其他超参数不需要变化。
- 为什么需要这条规则？
  - 文中给出了解释，我没细看。
  - 大概意思就是，bacth size为n、执行k次梯度下降与batch size为nk、执行1次梯度下降之间的对比。两者的公式分别是：
  - 很显然，通过上面两种情况得到的权重肯定不会完全相同。
  - 但在的前提下，上面两个公式的数值就会差不多，且满足了 linear scaling rule。
    - 在满足上面这个条件时，不仅仅准确率啥的基本保持不变，训练时损失函数变化曲线也差不多。
  - 两种情况下不满足该条件：刚开始训练的时候，此时参数变化较大；minibatch size不能无限制增加，超过某个点后准确率会快速降低。
为了解决上面 Linear Scaling Rule 中不满足条件的第一种情况，提出了Warmup策略。
- 问题：刚开始训练时参数变化较大。
- 解决：刚开始训练的时候减少学习率。
- 具体实现：常量warmup，渐变warmup。
- 终极目标：训练稳定。
BN相关的之后再说，会单独写笔记。
对于分布式SGD的几个结论：
- Scaling the cross-entropy loss is not equivalent to scaling the learning rate.
  - 根据weight decay的计算公式可以看出，weight decay相关的梯度值与batch size没关系，所以整体loss与lr也没有
- Apply momentum correction after changing learning rate if using
- Normalize the per-worker loss by total minibatch size kn, not per-worker size n.
- Use a single random shuffling of the training data (per epoch) that is divided amongst all k workers.