Batch Normalization 详解

batchNorm是在batch上,对NHW做归一化,对小batchsize效果不好;
instanceNorm在图像像素上,对HW做归一化,用在风格化迁移;
在这里插入图片描述

BN是在激活层之前添加的。作用是把下一层(激活层)的输入量标准化,更容易学习到数据之中的规律。在这里插入图片描述
从上图可以看出,如果没有标准化,前面遇到较大的值之后,下一层的激活函数就很难进行处理了。比如tanh,此时Wx2已经大于1,基本激活已经没有作用了,不敏感了。

Batch Normalization (BN) 就被添加在每一个全连接和激励函数之间.

从下图可以看出,进行了BN的数的分布在-1到1之间,这样激活函数也能相应的起到作用。
在这里插入图片描述
激活之后:可以看出,经过BN,激活之后输出值分布更加均匀,而没有BN的由于激活函数已经不敏感,所以分布到了饱和阶段。

在这里插入图片描述

BN的算法

也就是每一个值 减去 均值再除以方差得到了标准化后的值。
值得注意的是,标准化之后还有一步小小的反向操作, 将 normalize 后的数据再扩展和平移. 原来这是为了让神经网络自己去学着使用和修改这个扩展参数 gamma, 和 平移参数 β。倘若BN没有作用,则对应的参数会用来改变而优化。

最后的BN就是输出。
在这里插入图片描述

注意如果是cv2读进来时(H,W,C)

import numpy as np

def Batchnorm(x, gamma, beta, bn_param):

    # x_shape:[B, C, H, W]
    running_mean = bn_param['running_mean']
    running_var = bn_param['running_var']
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(0, 2, 3), keepdims=True) # 在BHW上做归一化~~
    x_var = np.var(x, axis=(0, 2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta

    # 因为在测试时是单个图片测试,这里保留训练时的均值和方差,用在后面测试时用
    running_mean = momentum * running_mean + (1 - momentum) * x_mean
    running_var = momentum * running_var + (1 - momentum) * x_var

    bn_param['running_mean'] = running_mean
    bn_param['running_var'] = running_var

    return results, bn_param

在test的时候,BN用的是固定的mean和var, 而这个固定的mean和var是通过训练过程中对mean和var进行移动平均得到的,被称之为moving_mean和moving_var。
在实际操作中,每次训练时应当更新一下moving_mean和moving_var,然后把BN层的这些参数保存下来,留作测试和预测时使用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值