batchNorm是在batch上,对NHW做归一化,对小batchsize效果不好;
instanceNorm在图像像素上,对HW做归一化,用在风格化迁移;
BN是在激活层之前添加的。作用是把下一层(激活层)的输入量标准化,更容易学习到数据之中的规律。
从上图可以看出,如果没有标准化,前面遇到较大的值之后,下一层的激活函数就很难进行处理了。比如tanh,此时Wx2已经大于1,基本激活已经没有作用了,不敏感了。
Batch Normalization (BN) 就被添加在每一个全连接和激励函数之间.
从下图可以看出,进行了BN的数的分布在-1到1之间,这样激活函数也能相应的起到作用。
激活之后:可以看出,经过BN,激活之后输出值分布更加均匀,而没有BN的由于激活函数已经不敏感,所以分布到了饱和阶段。
BN的算法
也就是每一个值 减去 均值再除以方差得到了标准化后的值。
值得注意的是,标准化之后还有一步小小的反向操作, 将 normalize 后的数据再扩展和平移. 原来这是为了让神经网络自己去学着使用和修改这个扩展参数 gamma, 和 平移参数 β。倘若BN没有作用,则对应的参数会用来改变而优化。
最后的BN就是输出。
注意如果是cv2读进来时(H,W,C)
import numpy as np
def Batchnorm(x, gamma, beta, bn_param):
# x_shape:[B, C, H, W]
running_mean = bn_param['running_mean']
running_var = bn_param['running_var']
results = 0.
eps = 1e-5
x_mean = np.mean(x, axis=(0, 2, 3), keepdims=True) # 在BHW上做归一化~~
x_var = np.var(x, axis=(0, 2, 3), keepdims=True0)
x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
results = gamma * x_normalized + beta
# 因为在测试时是单个图片测试,这里保留训练时的均值和方差,用在后面测试时用
running_mean = momentum * running_mean + (1 - momentum) * x_mean
running_var = momentum * running_var + (1 - momentum) * x_var
bn_param['running_mean'] = running_mean
bn_param['running_var'] = running_var
return results, bn_param
在test的时候,BN用的是固定的mean和var, 而这个固定的mean和var是通过训练过程中对mean和var进行移动平均得到的,被称之为moving_mean和moving_var。
在实际操作中,每次训练时应当更新一下moving_mean和moving_var,然后把BN层的这些参数保存下来,留作测试和预测时使用。