过度拟合在机器学习中很重要。
很直观的解释过拟合:假设我们现在让机器学习考试做题,想象一种情况,机器逐字记住每个问题的答案(拟合非常好-完美)。然后,我们可以在练习题上得分很高;我们这样做是基于希望实际考试中的问题与练习中的问题相同。但是,实际上,我们在用该机器在实际考试问题上的得分会非常低,因为很少有在实际考试中会出现完全相同的问题。
记忆现象可能导致过度拟合。就是说我们过度地从训练集中提取了太多信息,然后这个模型在训练集上就特别好,但在实际中或者测试集中就不行了,这被称为机器学习中的低偏倚。与此同时,它也无助于我们对数据进行概括并从中得出模式,该模型将在以前未见的数据集上表现不佳。我们也称这种情况为机器学习中的高变异或者高方差。
当我们尝试根据相对较少的观察值而不是基本关系来描述学习规则时,就会发生过度拟合;当我们使模型过于复杂时,以使其适合每个训练样本时也会过拟合,例如,如前所述,记住所有问题的答案。
相反的情况称为欠拟合。当模型欠拟合时,它在训练集上的表现不佳,而在测试集上则表现不佳,这意味着它无法捕获数据的潜在趋势。如果我们没有使用足够的数据来训练模型,可能会导致拟合不足,就像如果我们没有审查足够的材料会导致考试不及格;如果我们尝试将错误的模型拟合到数据中,也可能发生这种情况,就像如果我们采用错误的方法并以错误的方式学习它,则在任何练习或考试中得分都将较低。我们称这