MLP需要初始化的原因
今天学习MLP的时候发现神经网络初始化需要加入噪音才能赋予其迭代的能力。
分析当W,b全部初始化为0的时候,所有神经元都一样,相当于f(Aj0+b0)。相当于线性回归。
解决办法为打破对称性,随机初始化。
那么初始化时赋值的标准应该是什么呢?
答案应该是不太大也不太小,太大太小在sigmoid函数上都会导致变化率小,从而导致更新率很慢!
初始化不好的情况下增大迭代次数对于模型的改进帮助也不是太大。所以初始化很重要。
这里推荐一种初始化的方法。
何氏初试法(He Initialization)
上面试了各种方法,放大缩小都不好,无法把握那个度。还好,总有大神为我们铺路,论文He et al., 2015.中提出了一种方法,我们称之为He Initialization,它就是在我们随机初始化了之后,乘以sqrt(2/上一层的维度) ,这样就避免了参数的初始值过大或者过小,因此可以取得比较好的效果,代码也很简单,用np.sqrt()来求平方根:
总结一下:
神经网络不可用0来初始化参数!
随机赋值是为了打破对称性,使得不同的神经元可以有不同的功能
推荐在初始化的时候使用He Initialization