1,Adding Batch Norm to a network
每一层除了W,b,多了两个参数beta 和 gamma。beta和gamma也需要计算梯度,并在反向传播时使用优化算法进行更新。
2,Working with mini-batch
对于每一个mini-batch来说,每一层按道理应该有w,b,beta,gamma四组参数,但是由于做归一化,加上b之后,也会由于归一化会减去b,所以这种情况下,参数b是没有意义的。因此每一层值剩下三组参数,w,beta,gamma。
3,Implementing gradient descent
beta和gamma也需要计算梯度,并在反向传播时使用优化算法进行更新。
关于batch norm 的实现可以参考李沐《动手学深度学习》。
http://tangshusen.me/Dive-into-DL-PyTorch/#/chapter05_CNN/5.10_batch-norm