Batch Norm
source from: Deep Learning Specialization
效果
- normalize inputs to speed up learning
- mean/variance computed on just that mini-batch similar to dropout, it adds some noise to each hidden layer’s activations. Thus, this has a slight regularization effect
过程
块正则化过程:
Before:z(1)、z(2)、...、z(m)μ=1m∑iz(i)σ2=1m∑i(z(i)−μ)2After:z(i)norm=z(i)−μσ2+ϵ−−−−−√(ϵ是为了保证数值稳定性)z^(i)=αz(i)norm+β
α 和 β 作为学习参数
由此原先
z[l]=w[l]a[l−1]+b[l]
中的 b[l] 没有了任何作用
测试中的Batch Norm
由于测试中只能使用一个样本,因此Batch Norm中的mean/variance不再有实际意义。
测试中使用的mean/variance是训练中多个mini-batch的指数加权平均。