机器学习基石------Hazard of Overfitting

本文探讨了机器学习中过度拟合的问题,分析了导致过度拟合的原因,如模型复杂度过高、数据噪声、样本量不足等。通过实例展示了即使知道目标函数,使用过于复杂的模型也可能导致泛化能力下降。解决过度拟合的方法包括从简单模型开始、减少数据噪声、增加样本量等。
摘要由CSDN通过智能技术生成

对于需要拟合的数据(x1,x2,x3…) 我们可以使用一个多项式取拟合这些数据 如果这些数据分布 f(x) 为二次函数
当我们使用一个好的VC dimension 即和原始分布相似的VC dimension 那么我们可以较好的拟合原始数据分别
在这里插入图片描述

当我们选择的VC dimension较大的时候 我们同样也可以很好的fit训练数据 但是由于模型过于复杂 可能只是在给定的数据点处较好的拟合数据 泛化能力可能不会这么好
在这里插入图片描述

overfitting可能性:

  1. 使用过大的VC dimension
  2. 数据存在noise
  3. 训练样本N数量过小

OverFiting 实验:
对于训练数据分布 十次多项式加噪声生成数据
在这里插入图片描述

使用50次多项式不加噪声
在这里插入图片描述

对于上述两个数据分布 我们采用不同的模型取拟合这些数据分布

  1. 使用二次多项式取拟合 十次多项式加noise 产生的数据
  2. 使用十次多项式取拟合 十次多项式加noise 产生的数据
    在这里插入图片描述
    可想而知 十次多项式的表达能力肯定是比二次多项式要强的 因此它对于Ein的拟合能力也是要比二次多项式来的强 如果没有噪声的存在 那么十次多项式是可以在所有的数据分布空间中完全拟合数据的 但是由于噪声的存在 训练所得十次多项式的系数 和原始生成数据的系数会有一定的差异
    所以和二次多项式比 训练所得的十次多项式 对数据拟合能力更强 但是拟合的是在噪声存在的分布下的 训练数据 所以可能导致泛华结果更差

拟合50次多项式生成的数据
在这里插入图片描述
可见十次多项式拟合50次多项式的时候在Eout上表现也更差 参见下图分布数据和拟合数据的分布

在这里插入图片描述

由此可见 即便知道目标函数是十次多项式 使用十次多项式去拟合也不见得结果会好

当资料量不够多的时候
在这里插入图片描述
当N比较小的时候我们可以看到 H10所能够产生的Eout是远比H2要来的大的

在这里插入图片描述
总结overfitting发生的可能情况:
1.当数据量过小的时候 会发生
2. 左图随着数据Noise增加 会发生overfitting
3. 当目标函数的复杂度过大时 和上述分析一样会发生overfitting
4. 因为比较的是十次多项式和二次多项式 如果目标是十次多项式以下的时候也会出现overfitting

这里解释一下为什么目标函数过于复杂的时候也会带来Noise 即 deterministic noise

在这里插入图片描述

如果在hypothesis set中不存在我们要寻找的那个f 这时和在某一个能够拟合的f上加noise 十分相似
唯一不同的是这个noise不是随机加的 而是和h有关 图中灰色的区域即为要求的noise

如何解决overfitting

在这里插入图片描述

  1. 从简单的hypothesis做起
  2. 减小资料中的噪声
  3. 增加资料数量或者其他信息

在这里插入图片描述

重点是要查找出outlier

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值