过拟合
数据:用更多数据训练、对于图像实施数据扩充
正则化方法:
L2正则化在cost function增加(lamdb/(2*m))sum(w[l]),整理偏导数得到w=(1-lamdb/m)w+learning_rate*back_prop,相当于对w乘以(1-lamdb/m),缩小了w的范围,结合tanh的曲线,在w较小的范围里更接近线性
缺点:通过调节超参数lamdb需要较高的计算成本
Dropout,通过为每层设置keep_probs,来设置每层神经元随机保留的概率,通过随机drop掉神经元,使得输出不过于依赖某些特征(W)。这种方法常用语计算机视觉训练时数据量不足情况下,用于对抗过拟合。
缺点:无法明确定义损失函数,因此在引入dropout之前通常会先运行代码,确保单调递减,然后引入dropout
early stopping:在dev set error上升前停止训练
缺点:这种方式避免了过拟合,却无法充分训练模型,有可能导致高偏差
数据:用更多数据训练、对于图像实施数据扩充
正则化方法:
L2正则化在cost function增加(lamdb/(2*m))sum(w[l]),整理偏导数得到w=(1-lamdb/m)w+learning_rate*back_prop,相当于对w乘以(1-lamdb/m),缩小了w的范围,结合tanh的曲线,在w较小的范围里更接近线性
缺点:通过调节超参数lamdb需要较高的计算成本
Dropout,通过为每层设置keep_probs,来设置每层神经元随机保留的概率,通过随机drop掉神经元,使得输出不过于依赖某些特征(W)。这种方法常用语计算机视觉训练时数据量不足情况下,用于对抗过拟合。
缺点:无法明确定义损失函数,因此在引入dropout之前通常会先运行代码,确保单调递减,然后引入dropout
early stopping:在dev set error上升前停止训练
缺点:这种方式避免了过拟合,却无法充分训练模型,有可能导致高偏差
对dropout作用机理的一点补充(摘自知乎)
1. 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,