归一化输入 第一卡,均值归零。(训练集) 第二步,方差归零 (测试集) 均值为0,方差为1,特征尺度相似。学习更快 梯度消失与梯度爆炸 在层数很深 的时候 ,损失函数的导数越来越大,或指数级减少 梯度消失解决–网络的权重初始化 W[1]=np.random.randn(shape)*np.sqrt(1/n[n-1]) ReLu激活函数:var(w)=2/n tanh函数:用np.sqrt(1/n[l-1])或sqrt(2/n[l-1]+n1 梯度的数值逼近 梯度检验 梯度检验注记 l ↩︎