在反向传播中,参数更新过程如下:
因为是链式求导,所以大致可以视为:
其中可以视为常数。
接着我们假设存在神经元:
且有,
的最优解
,
满足:
这时我们希望变大,希望
变小。由上面第二个公式可以看出w的更新方向只由x值控制,此处对应
和
。
如果此时x值为被零均值化,即和
符号相同,则模型为了收敛,只能按如下方式逼近最优解:
如此,收敛速度自然慢了下来。
文章参考自:https://liam.page/2018/04/17/zero-centered-active-function/