人声抑制 深度学习_深度学习之9——逐层归一化(BN,LN)

本文探讨了深度学习中内部协变量偏移问题,介绍了批量归一化(BN)和层归一化(LN)作为解决方案。批量归一化用于减小每一层输入的分布变化,通过缩放和平移参数γ和β调整分布,适用于全连接层和卷积层。层归一化则适用于动态输入分布的场景,如循环神经网络。这两种方法都有助于加速训练,稳定模型表现,并在一定程度上替代权重初始化和dropout的正则化效果。
摘要由CSDN通过智能技术生成

深层神经网络中,中间某一层的输入是其之前的神经层的输出。因此,其之前的神经层的参数变化会导致其输入的分布发生较大的差异。利用随机梯度下降更新参数时,每次参数更新都会导致网络中间每一层的输入的分布发生改变。越深的层,其输入分布会改变的越明显。

内部协变量偏移(Internal Covariate Shift):每一层的参数在更新过程中,会改变下一层输入的分布,神经网络层数越多,表现得越明显,(就比如高层大厦底部发生了微小偏移,楼层越高,偏移越严重。)

为了解决内部协变量偏移问题,就要使得每一个神经层的输入的分布在训练过程要保持一致。

批量归一化(Batch Normalization,BN)

令第

层的净输入 为

,神经元的输出为

为了减少内部协变量偏移问题,就要使得净输入

的分布一致,比如都归一化到标准正态分布。但是逐层归一化需要在中间层进行操作,要求效率比较高,因此复杂度比较高的白化方法就不太合适。为了提高归一化效率,一般使用标准归一化,将净输入

的每一维都归一到标准正态分布:

指当前参数下,

的每一维在整个训练集上的期望和方差。因为目前主要的训练方法是基于小批量的随机梯度下降方法,因此

的期望和方差通常用当前小批量样本集的均值和方差近似估计。

给定一个包含

个样本的小批量样本集合,第

层神经元的净输入

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值