笔记——Batch Normalization论文

批量归一化,防止RELU等激活函数的饱和区导致死神经元问题,提高训练效率

To:

饱和非线性的模型(RELU)的输入层的分布会被上游梯度改变,即内部协核漂移(internal covariate shift)(比如说分布变得偏离0位置,大部分甚至全部处于饱和区)为避免这一问题,传统方法会仔细降低学习率或者使用一个很挑剔的初始化参数的方法——批量归一化则能有效地规避这一问题,同时
可以继续使用一个较高的学习率和“随便”初始化;
可以减少对dropout的需求:
可以“放肆”地使用饱和非线性模型

在此之前对BN的探索

1.标准化操作在梯度下降之外的地方计算——对激活之后的输出进行标准化:
现在考虑对权值w和截距b来更新权值的操作,BN在其输出之后发挥作用:
前向传播的过程为: z = w x + b z=wx+b z=wx+b,对其进行的归一化操作为: z ^ = z − E [ x ] \hat{z}=z-E[x] z^=zE[x],其中 E [ x ] E[x] E[x]只依赖于输出的各个x,b的改变对其没有影响。在训练过程中,对b的更新为: b ← b + △ b b\leftarrow b+\bigtriangleup b bb+b其中 ▽ b ∝ ∂ l

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值