过拟合/欠拟合、偏差/方差

基本概念

  • 偏差:度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力
  • 方差:度量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响
  • 噪声:描述了在当前任务上,任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度
  • 经验误差:模型关于训练样本集的平均误差,也称经验风险。
  • 结构风险:在经验风险的基础上加上表示模型复杂度的正则化项
  • 泛化误差:模型在新样本集(测试集)上的平均误差。 泛化误差=偏差+方差+噪声
  • 欠拟合:模型的经验误差大,模型太简单,在训练的过程中基本没学到有价值的内容。
  • 过拟合:模型学习了太多的训练样本的“个性”(经验误差小),但是对于未知的样本泛化能力差(泛化误差大)。

机器学习的泛化能力

机器学习是逼近目标函数 Y = f ( X ) Y=f(X) Y=f(X)的过程。

归纳性学习:从训练数据学习目标函数的学习过程。
泛化:机器学习模型学习到的模型,在学习训练时没遇到的样本上的表现。
拟合:逼近目标函数的远近程度。通过描述函数和目标函数逼近的吻合程度来描述拟合的好坏。

机器学习模型的目标: 在问题领域内,从训练数据到任意的数据上泛化性能良好。即对模型没有见过的数据进行预测。

Q:训练时,为什么考虑模型在预测新数据时的泛化性能?
S:因为已知的数据是样本,是带有噪声且不完全的。

 讨论一个机器学习模型学习和泛化能力的好坏时,通常使用:过拟合和欠拟合。它们是机器学习表现不佳的两大原因。

过拟合、欠拟合

概念

  • 欠拟合:模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
  • 过拟合:模型把训练数据学习的太彻底,以至于把噪声数据的特征也学习到了,使得模型泛化能力差。在测试时,不能够很好地识别(正确分类)新数据。

过拟合:在训练数据上表现良好,在未知数据上表现差
欠拟合:在训练数据和未知数据上表现都很差

在这里插入图片描述

模型复杂度 ↑ \uarr 的变化

  • 开始时,模型往往是欠拟合的,也因此才有了优化的空间。
  • 过程:不断的调整算法,使得模型的性能更好。
  • 优化到了一定程度,就需要解决过拟合问题了。
    在这里插入图片描述

与【偏差/方差】的关系

偏差

 预测输出与真实标记的差别。
b i a s 2 ( X ) = ( f ‾ ( X ) − y ) 2 bias^2(X)=(\overline f(X)-y)^2 bias

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值