- 您已经为所有隐藏单元使用tanh激活建立了一个网络。 使用np.random.randn(…,…)* 1000将权重初始化为相对较大的值。 会发生什么?
【 】这没关系。只要随机初始化权重,梯度下降不受权重大小的影响。
【 】这将导致tanh的输入也非常大,因此导致梯度也变大。因此,您必须将α设置得非常小以防止发散; 这会减慢学习速度。
【 】这会导致tanh的输入也非常大,导致单位被“高度激活”,从而加快了学习速度,而权重必须从小数值开始。
【★】这将导致tanh的输入也很大,因此导致梯度接近于零, 优化算法将因此变得缓慢。
2.
则:
【★】b[1] 的维度是(4, 1)
【★】W[1] 的维度是 (4, 2)
【★】W[2] 的维度是 (1, 4)
【★】b[2] 的维度是 (1, 1)
可参考: