目的:采用不同的变换方式使得各层的输入数据近似满足独立同分布假设条件,并将各层输出限制在一定范围内。
批次归一化(Batch normalization)
尤其使用于CNN
主要作用是将数据拉回到均值为零方差为一的高斯正态模型下,以便位于激活函数的敏感范围。
会使用两个参数保证其非线性能力
详见深入理解Batch Normalization批标准化.这篇文章真的写的太好了,完美的诠释了什么是BN,读完这篇文关于BN的原理就清楚了。
层归一化(layer normalization)
适用于RNN
权重归一化(weight normalization)
组归一化(group normalization)
个人感觉。除了批次归一化剩下的都没用