目录
Batch Normalization
Batch normalization
注意:对于batch normalization而言,针对输入的所有样本,进行求均值和方差,之后对每一个样本进行均值和方差的求解。避免每一层归一化后都相同,通过伽马和贝塔进行简单的线性变化。
在每一层网络中使用BN归一化,我们可以保证每一层运算的结果都是相似的,之后可以使用较大的学习率,参数初始化不敏感,加快网络训练。
反向传播更新的参数:四个,系数矩阵w,偏置b,线性变换的系数γ和β,但是在归一化过程中,需要减掉均值,因此偏置b不需要学习,因此需要学习的参数总共有3个。
每一层神经元的含义:
注意:每一层神经元包含三种运算,分布归一化和非线性激活的顺序可以变换。
缺陷及改进方法:
Layer Normalization
注意:一般解决自然语言处理里面的问题=
Group Normalization
注意:这种形式的归一化不涉及到一个batch中的两个样本之间的交互!