Batch Normalization

参考一:https://www.jianshu.com/p/86530a0a3935

参考二:http://www.mamicode.com/info-detail-2378483.html

我们都知道在train网络之前,会对数据进行归一化处理,为的是保持训练和测试数据的分布相同,而在神经网络内部,每一层我们都需要有输出和输出,除了对原始数据的标准化处理,在经过网络每一层计算后的数据,它们的分布是不同的。网络的训练,需要去学习适应不同的数据分布,明显造成的后果就是收敛慢,效果不佳。
另一方面,网络前面的参数变更,会随着网络的深度,其影响不断累积增大,所以说只要有某一层的数据分布发生变化,后面层的数据输入分布也会不同,结合前面说的,为了解决中间层数据分布改变的情况。

总的来说,bn的操作很简单,也很容易理解。就是在网络的每一层输入之前,做了一个归一化处理,就是作用于(wu+b),即bn(wu+b),然后再接激活函数(非线性映射)。而且,很多论文的代码里,bn算作了独立的一层。由此实现,保持每一层的分布不变。

加入了可学习的γ和β,为什么是可学习的,感觉应该是让网络自己找到一个在正态变换后不破坏原特征分布的平衡状态。

在cnn中,batch_normalization就是取同一个channel上所有批次做处理:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值