机器学习基石------Hazard of Overfitting

最新推荐文章于 2022-04-10 18:55:58 发布

1只小包子

最新推荐文章于 2022-04-10 18:55:58 发布

阅读量190

点赞数

分类专栏：机器学习基石文章标签：机器学习基石

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a940902940902/article/details/84593891

版权

机器学习基石专栏收录该内容

19 篇文章 1 订阅

订阅专栏

本文探讨了机器学习中过度拟合的问题，分析了导致过度拟合的原因，如模型复杂度过高、数据噪声、样本量不足等。通过实例展示了即使知道目标函数，使用过于复杂的模型也可能导致泛化能力下降。解决过度拟合的方法包括从简单模型开始、减少数据噪声、增加样本量等。

摘要由CSDN通过智能技术生成

对于需要拟合的数据(x1,x2,x3…) 我们可以使用一个多项式取拟合这些数据如果这些数据分布 f(x) 为二次函数
当我们使用一个好的VC dimension 即和原始分布相似的VC dimension 那么我们可以较好的拟合原始数据分别
在这里插入图片描述

当我们选择的VC dimension较大的时候我们同样也可以很好的fit训练数据但是由于模型过于复杂可能只是在给定的数据点处较好的拟合数据泛化能力可能不会这么好
在这里插入图片描述

overfitting可能性：

使用过大的VC dimension
数据存在noise
训练样本N数量过小

OverFiting 实验：
对于训练数据分布十次多项式加噪声生成数据
在这里插入图片描述

使用50次多项式不加噪声
在这里插入图片描述

对于上述两个数据分布我们采用不同的模型取拟合这些数据分布

使用二次多项式取拟合十次多项式加noise 产生的数据
使用十次多项式取拟合十次多项式加noise 产生的数据

可想而知十次多项式的表达能力肯定是比二次多项式要强的因此它对于E_in的拟合能力也是要比二次多项式来的强如果没有噪声的存在那么十次多项式是可以在所有的数据分布空间中完全拟合数据的但是由于噪声的存在训练所得十次多项式的系数和原始生成数据的系数会有一定的差异
所以和二次多项式比训练所得的十次多项式对数据拟合能力更强但是拟合的是在噪声存在的分布下的训练数据所以可能导致泛华结果更差

拟合50次多项式生成的数据
在这里插入图片描述
可见十次多项式拟合50次多项式的时候在Eout上表现也更差参见下图分布数据和拟合数据的分布

在这里插入图片描述

由此可见即便知道目标函数是十次多项式使用十次多项式去拟合也不见得结果会好

当资料量不够多的时候
在这里插入图片描述
当N比较小的时候我们可以看到 H10所能够产生的Eout是远比H2要来的大的

在这里插入图片描述
总结overfitting发生的可能情况：
1.当数据量过小的时候会发生
2. 左图随着数据Noise增加会发生overfitting
3. 当目标函数的复杂度过大时和上述分析一样会发生overfitting
4. 因为比较的是十次多项式和二次多项式如果目标是十次多项式以下的时候也会出现overfitting

这里解释一下为什么目标函数过于复杂的时候也会带来Noise 即 deterministic noise

在这里插入图片描述

如果在hypothesis set中不存在我们要寻找的那个f 这时和在某一个能够拟合的f上加noise 十分相似
唯一不同的是这个noise不是随机加的而是和h有关图中灰色的区域即为要求的noise

如何解决overfitting

在这里插入图片描述

从简单的hypothesis做起
减小资料中的噪声
增加资料数量或者其他信息

在这里插入图片描述

重点是要查找出outlier

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石------Hazard of Overfitting

对于需要拟合的数据(x1,x2,x3…) 我们可以使用一个多项式取拟合这些数据如果这些数据分布 f(x) 为二次函数当我们使用一个好的VC dimension 即和原始分布相似的VC dimension 那么我们可以较好的拟合原始数据分别当我们选择的VC dimension较大的时候我们同样也可以很好的fit训练数据但是由于模型过于复杂可能只是在给定的数据点处较好的拟合数据泛化能力...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。