在反向传播中,参数更新过程如下:
因为是链式求导,所以大致可以视为:
其中可以视为常数。
接着我们假设存在神经元:
且有, 的最优解 , 满足:
这时我们希望变大,希望变小。由上面第二个公式可以看出w的更新方向只由x值控制,此处对应和。
如果此时x值为被零均值化,即和符号相同,则模型为了收敛,只能按如下方式逼近最优解:
如此,收敛速度自然慢了下来。
文章参考自:https://liam.page/2018/04/17/zero-centered-active-function/