批归一化:Batch Normalization

批归一化:Batch Normalization

1.由来

批归一化,英文为Batch Normalization,简写为BN,在2015年google的论文首次提到,作者为Sergey Ioffe 和Christian Szegedy,

论文链接为:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

2.BN带来的优势

a.可以使用更大的学习率,模型对参数初始化不敏感。

b.加速网络训练。

c.在一定程度上扮演着正则化的作用,可以减少甚至不适用Dropout,在一定程度上避免模型的过拟合。

3.训练时BN的操作

训练时针对每一个batch的数据进行如下操作:

a.求均值

\mu =\frac{1}{m}\sum_{1}^{m}x_{i}    

b.求方差

\delta^{2} =\frac{1}{m}\sum_{1}^{m}(x_{i}-\mu )^{2}

c.规范化

\hat{x}_{i}=\tfrac{x_{i}-\mu }{\sqrt{\delta^{2} +\varepsilon }}

进行规范化后,这个batch中的数据的分布将是以0为均值,1为方差的正太分布,其中\epsilon是为了防止分母为零。

d.尺度缩放和平移

y_{i}=\gamma \hat{x}_{i}+\beta

y_{i}就是经过BN层的输出,其中\gamma\beta是两个可以学习的参数,这两个参数正是BN的精髓所在,训练时通过方向传播更新,初始化时一般\gamma为1,\beta为0,之所以要进尺度缩放和平移是为了解决Interal Covariate Shift。

4.测试时BN的操作

E[x]=E_{_{\beta }}[\mu _{\beta }]

Var[x]=\frac{m}{m-1}E_{\beta }[\delta ^{2}_{\beta }]

其实是对训练时所有batch的\mu\delta ^{^{2}}求均值。

最终

y=x_{i}\frac{\gamma }{\sqrt{Var[x]+\epsilon ]}}+(\beta -\frac{\gamma E[x]}{\sqrt{Var[x]+\epsilon }})

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值