1.偏差和方差
通过查看训练集和验证集的错误率来判断方差和偏差情况
高偏差、和高方差的解决办法不同:
2、正则化(用来解决过度拟合问题,减小方差)
L2正则化的过程
dropout(随机失活)方法进行正则化:
不同层的keep-prob可以不同(保留节点的概率)(w矩阵越大,越可能过拟合,因此权重可设置更低)
(上图来自于同济子豪兄)
其他正则化方法:数据扩增
其他正则化方法:early stopping(在w的值适中时,停止梯度下降)
3、归一化输入(将均值化为0,方差化为1,使所有特征在相似的范围内变化,得到的损失函数更对称,则在梯度下降算法中,可以使用相对较大的步长,易于优化)
4、梯度消失与梯度爆炸(当层数过多时可能出现,与初始的w值设定有关)
解决梯度消失或爆炸:
将权重w初始化为合适的值:(对应不同的激活函数,选用不同的公式)
5、梯度检验(用于找bug,不在训练中使用)