来源:elitedatascience
编译:BigQuant
成千上万的数据科学新手会在不知不觉中犯下一个错误,你知道是什么吗?
这个错误可以一手毁掉你的机器学习模型,这并不夸张。
我们现在来讨论应用机器学习中最棘手的障碍之一:过拟合(overfitting)。
在本文中,我们将详细介绍过拟合、如何在模型中识别过拟合,以及如何处理过拟合。
最后你会学会如何一劳永逸地处理这个棘手的问题。你将读到下面这些内容:
- 过拟合的例子
- 信号与噪音
- 拟合优度
- 过拟合和欠拟合
- 如何检查过拟合
- 如何避免过拟合
过拟合的例子
假设我们想根据一个学生的简历预测她是否会获得面试机会。
现在,假设我们从10000份简历的数据集及其结果中训练模型。
接下来,我们在原始数据集上尝试这个模型,它预测结果的准确率达到99%……哇!
但这是个坏消息。
当我们在简历的新(“没见过的”)数据集上运行模型时,我们只能获得50%的准确度…即
我们的模型从训练数据到新数据的泛化能力并不好。
这被称为过拟合,也是机器学习和数据科学中的常见问题。
事实上,过拟合在现实世界中也一直在发生着。看看新闻频道:<