BatchNorm，BatchNorm和LayerNorm的区别

最新推荐文章于 2024-07-12 21:09:48 发布

raishu

最新推荐文章于 2024-07-12 21:09:48 发布

阅读量100

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/raishu/article/details/132085344

版权

文章介绍了BatchNorm的实现过程，包括训练时的均值和方差计算，以及滑动平均方法。对比了BatchNorm与LayerNorm的区别，强调了两者在归一化样本和特征上的不同，以及在深度学习中的应用场合。

摘要由CSDN通过智能技术生成

BatchNorm

训练时使用一个minibatch的训练数据计算均值和方差然后标准化数据，在test的时候我们也希望作相同的处理，比较直接的方法是在训练集上重新计算一遍统计量，但是，如果有1000w数据,这种计算就比较花费时间，而test的速度越快越好，所以在训练的时候，顺便就把均值和方差计算出来了，当然不是精确值，是近似值，这就是moving average。

running_mean = momentum * running_mean + (1 - momentum) * sample_mean
running_var = momentum * running_var + (1 - momentum) * sample_var

上述公式中的 momentum 为动量参数，在 TF/Keras 中，该值为0.99，在 Pytorch 中，这个值为0.9
初始值，moving_mean=0，moving_var=1，相当于标准正态分布，当然，理论上初始化为任意值都可以

可以理解为每次更新running mean相当于把之前的值衰减一些(* momentum)，然后把当前的minibatch sample mean加进去一部分(* (1-momentum))。其实也就是一阶指数平滑平均
var同理，两个值在训练迭代过程中相当于是在不断的moving。完全是经验主义，没什么道理可讲，所以batch normalization本身是个次优的normalization，可能今后会被更优的normalization模型所取代。
在test时，直接使用训练得到的running mean/var标准化数据：都是对单个样本进行测试。这个时候的均值和方差是全部训练数据的均值和方差，这两个数值是通过移动平均法求得。
当一个模型训练完成之后，它的所有参数都确定了，包括均值和方差， gamma 和 bata