在开始进行迭代时,我们需要给w和b初始值,之前的例子我们是直接初始化为0,但是更复杂的神经网络需要随机化初始
原因:
这是因为样本的所有特征值初始化相同的值会导致某一层的节点进行的运算一模一样,导致多个节点是没用的
初始化方式:
注意:
Ø 注意这个0.01,我们的习惯是将初始值设的比较小,这样容易落在斜率比较大的地方,保证梯度下降法的效率
Ø b的初始化基本不做限制
在开始进行迭代时,我们需要给w和b初始值,之前的例子我们是直接初始化为0,但是更复杂的神经网络需要随机化初始
原因:
这是因为样本的所有特征值初始化相同的值会导致某一层的节点进行的运算一模一样,导致多个节点是没用的
初始化方式:
注意:
Ø 注意这个0.01,我们的习惯是将初始值设的比较小,这样容易落在斜率比较大的地方,保证梯度下降法的效率
Ø b的初始化基本不做限制