3.31-batch和momentum

最新推荐文章于 2023-06-25 18:41:31 发布

ZHU883000

最新推荐文章于 2023-06-25 18:41:31 发布

阅读量422

点赞数

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43220896/article/details/123883461

版权

李宏毅机器学习课程笔记专栏收录该内容

20 篇文章 1 订阅

订阅专栏

之前讲过训练不是拿所有的N个数据都去训练，而是会分为几个batch，这个分的过程就叫做shuffle（洗牌）。

那到底是分batch好还是不分batch好呢，如下图，左图是不分（相当于让batch size直接为N），右边是让size=1。因为走完一个batch就会找到一个梯度，更新一次参数，所以20的肯定比1的这个时间花的更久，因为它得看20个examples再更新，但是它一定比1的更精准。今天这个size为1的会更新20次，但是每一次的更新都很无序。图中比喻成了放技能，20的技能冷却时间长，但是威力更大。

其实在这样说并不能判断出来哪种更好，但是现在有一种东西叫GPU，它可以做并行计算，比如这个TeslaV100，在这个上面，batch size为1和为1000其实都是1秒多，那肯定选batch size大的呀，有精准又时间短。这里就是说的总时间了，总时间是1个epoch里总update的时间乘以跑完一个batch的时间，那如果1和1000都话1S，但是1的update数是1000的1000倍，那1个epoch的总时间就是1000倍了。这也就是在GPU上，小的batch size反而会花更多时间。

不过可以看出来如果数据量太大了，到了100000，花的时间还是会增加。

但是神奇的东西来了，按照刚才的说法，选取大的batch size，能够又powerful又short time。可是，noisy的update其实反而效果更好。如下图，在两个数据集上不同batch size的曲线，纵轴是accuracy准确率，当然是准确率越大越好。此时随着size的增加，准确率是下降的。

原因如下，full batch的时候，因为只更新一次，这一次看完所有的数据，所以相当于沿着L这一个方向在走，很容易陷入stuck中停下来。而小的batch需要看多个方向，在L1的地方卡住了，指不定在L2的相同位置是可走的。

下面是有一篇论文探讨过这个问题，得出来的结论也是在testing上，小batch比大batch好，一个是数据支撑，一个是大概的原理解释。

从数据可以看出来training上都可以到99%，但是在testing上，大的就很明显不如小的了。

解释是说，今天training和testing会很像但是还是会有偏差，那么比如说是向右偏一点的偏差，这里的梯度为0 的低谷点也有两种，一种是很平缓的flat minima，一种是很狭窄的sharp minima。在发生偏差的时候，红色就代表差值，那肯定是flat的偏差小，因为平缓你左右移动一点其实海拔影响不大。而large batch指向性更明显，不容易走出sharp minima，在sharp minima中，小的batch的noisy大，随便指指就出去了。所以小batch的一般是在flat minima。

所以结论就是在testing的时候，small size的batch会又更好的效果。

那么通过以上，我们会发现大的和小的其实各有优势，比如小的虽然画的时间多，但是在optimization和generalization上表现更好。所以batch size成为了一个hyper parameter，由个人来决定。也有很多人来想能不能优点兼得，他们一般会设很大的size然后用其他方法取解决优化上的问题。

下面来讲momentum（动力/冲力）。我们说梯度下降最怕遇到梯度为零的谷底，也就是critical point，或者说local minima，因为到这儿时候就如同下图的小球，走不出去了。但是在实际物理中，小球不会一到这里就停住，他会有一个惯性一个冲量继续往前，甚至可能会翻过去到达另一个更好的minima。

然后回忆一下最原始的梯度下降法，他是每次算一个g之后往g的反方向走（这里不用纠结，总之就是只受算出来的g值影响下一步的方向）。假设初始没有方向就是一个点，那么就会一步步跟着算出来的g走，如果g不巧为0 ，就不会再走下去了。