2.5 Batch Normalization

BN(BatchNormalization)是一种用于神经网络的技术,旨在通过标准化特征值来改善梯度下降的效率。文章解释了BN的动机,即不同特征尺度导致梯度下降速度不一致,然后详细介绍了BN的做法,包括如何计算均值和标准差以及向量化表示。BN不仅应用于输入层,也用于中间层,以保持各层的稳定。在测试阶段,使用训练过程中的移动平均值来估计均值和方差。
摘要由CSDN通过智能技术生成

1. BN的动机

不同的特征,比如这个图的 x 1 x_1 x1 x 2 x_2 x2的范围(scale)不一样,导致对应的参数的梯度差别很大,反映到左图的等高线: x 1 x_1 x1的范围比较小,对应的梯度比较平滑, x 2 x_2 x2的范围比较大,对应的梯度比较陡峭。这样不同的参数变化情况对于梯度下降是不利的,会导致梯度下降的速度缓慢。
如果把不同的特征,比如这个图的 x 1 x_1 x1 x 2 x_2 x2的值进行标准化处理,变到同一scale,这样损失函数的等高线图就会变得像右图:不同维度梯度下降的速度接近,梯度下降的速度会比较快。
BN前后的损失函数等高线

2. BN的做法

2.1 BN做法的解释

假设有R个样本, x 1 x^1 x1 x R x^R xR,对每个特征维度i,求出所有样本在该维度的平均值 m i m_i mi,标准差 σ i \sigma_i σi,所有特征维度都转化成均值为零,方差为1,公式如下图所示。特征标准化可以让梯度下降收敛得更快。
Normalization操作

2.2 BN的向量化表示

向量化表示其实很好理解, μ \mu μ σ \sigma σ分别表示所有样本的均值向量和标准差的向量,计算某个单个样本的标准化值整体进行计算即可。可以通过调节参数使得均值和方差不为0和1,如下图的 β \beta β γ \gamma γ
在这里插入图片描述

3. 中间层也需要进行BN

不仅是输入要进行BN操作,中间层不同维度的取值范围也有所不同,因此也需要进行BN操作。
在这里插入图片描述

4. 测试过程的计算

测试过程原本没有均值和方差,无法计算给定输入对应的输出值。采用的均值 μ ‾ \overline{\mu} μ和方差 σ ‾ \overline{\sigma} σ来自于训练过程,具体来说是在批次的训练过程中取移动平均,最终的值作为测试过程对应层的均值和方差。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值