啥叫所谓的后层网络要不断适应前面网络的变化?有x就行了呀,就算输入的分布变了,又能咋?为啥说学习速度就慢了
ICS产生的原因是由于参数更新带来的网络中每一层输入值分布的改变,并且随着网络层数的加深而变得更加严重
通过固定每一层网络输入值的分布来对减缓ICS问题
是对每一个batch数据的每一维分别进行normalization
norm之后的均值和方差是待学习的参数
学习之后均值和方差参数就固定了,而在测试时使用的
γ
∗
x
−
μ
σ
+
β
\gamma *\frac{x-\mu}{\sigma}+\beta
γ∗σx−μ+β中的
μ
\mu
μ和
σ
\sigma
σ是记录之前所有batch中的
μ
\mu
μ和
σ
\sigma
σ的平均。
参考:
- https://www.cnblogs.com/shine-lee/p/11989612.html
- https://zhuanlan.zhihu.com/p/34879333