机器学习中的过拟合

过拟合是机器学习中常见的问题,当模型在训练数据上表现极佳,但在新数据上泛化能力差时,就可能发生过拟合。本文详细介绍了过拟合的定义、例子、信号与噪音的概念,以及如何检查和避免过拟合,包括交叉验证、增加数据量、删除无用特征、正则化和集成学习等方法。
摘要由CSDN通过智能技术生成

来源:elitedatascience
编译:BigQuant


成千上万的数据科学新手会在不知不觉中犯下一个错误,你知道是什么吗?

这个错误可以一手毁掉你的机器学习模型,这并不夸张。
我们现在来讨论应用机器学习中最棘手的障碍之一:过拟合(overfitting)

在本文中,我们将详细介绍过拟合、如何在模型中识别过拟合,以及如何处理过拟合。
最后你会学会如何一劳永逸地处理这个棘手的问题。你将读到下面这些内容:

  1. 过拟合的例子
  2. 信号与噪音
  3. 拟合优度
  4. 过拟合和欠拟合
  5. 如何检查过拟合
  6. 如何避免过拟合

过拟合的例子

假设我们想根据一个学生的简历预测她是否会获得面试机会。
现在,假设我们从10000份简历的数据集及其结果中训练模型。
接下来,我们在原始数据集上尝试这个模型,它预测结果的准确率达到99%……哇!

但这是个坏消息。
当我们在简历的新(“没见过的”)数据集上运行模型时,我们只能获得50%的准确度…即
我们的模型从训练数据到新数据的泛化能力并不好。
这被称为过拟合,也是机器学习和数据科学中的常见问题。
事实上,过拟合在现实世界中也一直在发生着。看看新闻频道:<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值