出现过拟合的原因及解决方案
机器学习需要我们利用模型对数据进行拟合,但并不是对训练集进行正确预测,而是对未曾在训练集合出现的样本能够正确预测。模型对训练集以外样本的预测能力就称为模型的泛化能力,过拟合与欠拟合就会导致模型泛化能力不高。
首先看下列几张图
第一个模型有许多错分的数据,不能很好的适应我们的训练集,属于欠拟合;第二个模型虽然有个别错误数据点,但是预测新数据效果很好;第三个模型是很复杂的模型,很完美的拟合了训练集的每个数据,但是过于强调拟合原始数据,而丢失了算法的本质:预测新数据。我们可以看出,若给出一个新的值使之预测,它将表现的很差,是过拟合。
所以,我们的数据在训练集上可能表现的很好,但是在遇到新数据后表现就没那么出色,这种现象叫过拟合。
出现过拟合的原因是什么?
(1)建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;
(2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;
(