深度学习中的Internal Convariate Shift (ICS) 问题

      深度学习网络模型的训练为什么会很困难?其中一个重要的原因是,深度神经网络设计到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化。通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不断去重新适应底层的参数更新。为了训练好模型,我们需要非常谨慎地设定学习率、初始化权重以及尽可能细致的参数更新策略。

Google将这一现象总结为Internal Convariate Shift,简称ICS。

Google提出BN的本之就是能够解决ICS问题,但是最近也有paper指出BN并没有解决ICS问题,其解决的是对目标函数空间增加了平滑约束,从而使得利用更大的学习率获得更好的局部优解)

ICS会导致什么问题?

  简而言之,每个神经元的输出数据不再是“独立同分布”。

  其一,上层的参数需要不断的适应新的输入数据分布,降低学习速度。  

  其二,下层输入的变化可能趋向于变大或者变小,导致上层落入饱和区,使得学习过早停止。  

  其三,每层的更新都会影响到其他层,因此每层的参数更新策略需要尽可能的谨慎。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值