0. 引言
在主成分分析与白化一节中介绍了如何对输入数据进行预处理,在这节中介绍与之类似的另一个问题,参数初始化(Weight Initialization)。
在模型训练之初,我们不知道参数的具体分布,然而如果数据经过了合理的归一化(normalization)处理后,对于参数的合理猜测是其中一半是正的,另一半是负的。然后我们想是不是把参数都初始化为0会是比较好的初始化?这样做其实会带来一个问题,经过正向传播和反向传播后,参数的不同维度之间经过相同的更新,迭代的结果是不同维度的参数是一样的,严重地影响了模型的性能。
1. 小的随机数
我们仍然想要参数接近于0,又不是绝对的0,一种可行的做法是将参数初始化为小的随机数,这样做可以打破对称性(symmetry breaking)。python代码如下:
nn_input_dim = 2
nn_hdim = 3
W = 0.001* np.random.randn(nn_input_dim,nn_hdim)
其中randn从均值为0,标准差是1的高斯分布中取样,这样,参数的每个维度来自一个多维的高斯分布。需要注意的是参数初始值不能取得太小,因为小的参数在反向传播时会导致小的梯度,对于深度网络来说,也会产生梯度弥散问题,降低参数的收敛速度。