BatchNormalization的相关注意点

最新推荐文章于 2024-04-08 11:15:14 发布

玄学关门大弟子

最新推荐文章于 2024-04-08 11:15:14 发布

阅读量375

点赞数

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_41994220/article/details/114644220

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

学习记录贴（1）- 2021.3.10

keras BatchNormalization

今天重新学习了BatchNormalization，发现遗漏的小知识还是不少的，今天的学习主要是参考了这位大佬的一篇文章：keras BatchNormalization的坑（training参数和 momentum参数）

根据了解，总结如下：

batch，即每个epoch训练的样本数，最好不要小于100个，因为：

使用权重滑动平均法时，若将衰减率momentum设置为0.99，最后moving_mean的值越约等于最后100个mean的加权，若我们设置的batch数量远远小于100时，momentum还使用默认值0.99的话，几乎不会通过每个批次更新，也就导致了训练集使用的mean是每个批次的均值，而测试集使用的mean几乎等于初值，产生很大差异！（方差也一样），训练时和测试时的mean和var差异太大这个坑就是因为这个原因

如果使用BatchNormalization，那么训练的batch_size最好就不要太小。如果显卡不足以使用大的batch_size，那么可以考虑选择Group Normalization，这个对小批次训练较为友好。BatchNormalization与Group Normalization的对比图如下：
其中，横轴表示每个GPU上的batch size大小，从左到右一次递减，纵轴是误差率，可见，在batch较小的时候，GN较BN有少于10%的误差率
根据部分个人见解，batch和momentum之间的关系大致为:batch * (1 - momentum ) = 1。即如果batch=10时，那么momentum 最好就取0.9；batch=50时，那么momentum 最好就取0.98；当batch大于等于100时，一般就按默认值就行了，默认值一般为0.99。当然，具体实际情况得看你的工程决定。

玄学关门大弟子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BatchNormalization的相关注意点

学习记录贴（1）- 2021.3.10keras BatchNormalization今天重新学习了BatchNormalization，发现遗漏的小知识还是不少的，今天的学习主要是参考了这位大佬的一篇文章：keras BatchNormalization的坑（training参数和 momentum参数）根据了解，总结如下：batch，即每个epoch训练的样本数，最好不要小于100个，因为：使用权重滑动平均法时，若将衰减率momentum设置为0.99，最后moving_mean的值越约
复制链接

扫一扫

专栏目录