中心化
中心化就是零均值化,对于每一个元素减去本图像的平均值即可。
E(X-E(X))=0
这样做的意义在于,对于某些激活函数,比如sigmoid,relu,tanh而言,激活函数单调递增,其任意一点导数均大于零。
而f关于wi的偏导数为xi,如果xi均为正数(或者负数),那么
其正负等同于xi的正负,也就是必然是正数(或者零)。
那么如果想要使得loss函数减小,朝着的方向运动的话,就会出现只能朝着每一个wi的正方向或者负方向运动的情况。如果有n个wi的向量,则有2^n个象限,除非最优化wi就在全为正的第一象限,否则优化本身必然比较曲折。假设二维,如下图所示