本博客主要内容为图书《神经网络与深度学习》和National Taiwan University (NTU)林轩田老师的《Machine Learning》的学习笔记,因此在全文中对它们多次引用。初出茅庐,学艺不精,有不足之处还望大家不吝赐教。
1. 原始权重初始化的缺点
之前根据独立高斯随机变量来选择权重和偏置,其被归一化为均值为0,标准差1。但是这样的初始化方法会带来梯度学习算法变慢的缺点,下面举例说明。
假设我们使用一个有大量输入神经元的网络,比如说1000个输入神经元,并且已经使用归一化的高斯分布初始化了连接第一个隐藏层的权重。现在我将注意力集中在这一层的连接权重上,忽略网络其他部分。为了简化,假设我们使用训练输入 x x x,其中一半的输入神经元值为0,另一半为1,虽然这种情况很特殊,但是结论是具有普遍适应性的。让我们考虑这一隐藏层的神经元权值输入 z = ∑ j w j x j + b z=\sum_jw_jx_j+b z=∑jwjxj+b。其中500个项消去了,因为对应的输入为0。所以 z z z 是遍历总共501个归 一化的高斯随机变量的和,包含500个权重项和额外的1个偏置项。因为独立随机变量和的方差是每个独立随机变量方差的和,因此 z z z 本身是一个均值为0标准差为 501 ≈ 22.4 \sqrt{501}\approx22.4 501