过拟合
过拟合现象
机器学习中,过拟合现象就是训练模型高度适用于训练集,而对测试集或未知数据集效果不好的情况。表现为训练集过度拟合具有高准确率,而测试集的准确率明显低于测试集。
防止过拟合
防止过拟合的方法有:增加数据集,正则化方法以及Dropout方法。
1. 增加数据集
- 数据挖掘中,数据量越多,对模型参数调整就越准确。多的数据往往比好的训练模型要重要,因此,增加数据集,能明显的提高准确率、模型的可靠性以及防止过拟合。
2. 正则化方法
- 在代价函数中加入一个正则项,例如:
C=C0+λ2n∑ww2 C = C 0 + λ 2 n ∑ w w 2
其中, C C 表示新的代价函数,