1. BN的动机
不同的特征,比如这个图的
x
1
x_1
x1和
x
2
x_2
x2的范围(scale)不一样,导致对应的参数的梯度差别很大,反映到左图的等高线:
x
1
x_1
x1的范围比较小,对应的梯度比较平滑,
x
2
x_2
x2的范围比较大,对应的梯度比较陡峭。这样不同的参数变化情况对于梯度下降是不利的,会导致梯度下降的速度缓慢。
如果把不同的特征,比如这个图的
x
1
x_1
x1和
x
2
x_2
x2的值进行标准化处理,变到同一scale,这样损失函数的等高线图就会变得像右图:不同维度梯度下降的速度接近,梯度下降的速度会比较快。
2. BN的做法
2.1 BN做法的解释
假设有R个样本,
x
1
x^1
x1到
x
R
x^R
xR,对每个特征维度i,求出所有样本在该维度的平均值
m
i
m_i
mi,标准差
σ
i
\sigma_i
σi,所有特征维度都转化成均值为零,方差为1,公式如下图所示。特征标准化可以让梯度下降收敛得更快。
2.2 BN的向量化表示
向量化表示其实很好理解,
μ
\mu
μ和
σ
\sigma
σ分别表示所有样本的均值向量和标准差的向量,计算某个单个样本的标准化值整体进行计算即可。可以通过调节参数使得均值和方差不为0和1,如下图的
β
\beta
β和
γ
\gamma
γ。
3. 中间层也需要进行BN
不仅是输入要进行BN操作,中间层不同维度的取值范围也有所不同,因此也需要进行BN操作。
4. 测试过程的计算
测试过程原本没有均值和方差,无法计算给定输入对应的输出值。采用的均值
μ
‾
\overline{\mu}
μ和方差
σ
‾
\overline{\sigma}
σ来自于训练过程,具体来说是在批次的训练过程中取移动平均,最终的值作为测试过程对应层的均值和方差。