1、模型在训练数据上表现不好,why?
(1)过拟合
(2)激活函数
(3)学习率
2、梯度消失?
盲目增加网络层数很容易导致发生梯度消失现象,尤其是使用sigmoid作为激活函数的时候。sigmoid函数的特点使得权重很大的改变对输出产生很小的影响,当层数很多时这种影响甚至可以忽略不计。在权重更新环节,靠近输出端的权重梯度较大,靠近输入端的权重梯度很小,这使得后端权重更新的很快、很快就收敛,而前端却更新的很少,好像梯度在向后传播的过程中消失了一样,这就是梯度消失现象。
避免梯度消失发生的方法之一是使用ReLU作为激活函数