在论文当中 Reducing BERT Pre-training Time from 3 Days to 76 Minutes中提到:如图所示:
结论:batchsize变大,学习率也要相应变大;本质是为了梯度的方差保持不变;
1、为什么要保证梯度的方差不变呢?
个人猜想,是为了解决陷入局部最优和一个sharp 最小值(类似于一个很尖的V底)的问题,增强泛化能力;增加了学习率,就增大了步长;
在论文当中 Reducing BERT Pre-training Time from 3 Days to 76 Minutes中提到:如图所示:
结论:batchsize变大,学习率也要相应变大;本质是为了梯度的方差保持不变;
1、为什么要保证梯度的方差不变呢?
个人猜想,是为了解决陷入局部最优和一个sharp 最小值(类似于一个很尖的V底)的问题,增强泛化能力;增加了学习率,就增大了步长;