机器学习基石第十三周笔记

一.What’s Overfitting
什么叫作过度拟合?
如下所示,当N=5时,目标f本来是个2次多项式,而我们用5次多项式对这些数据进行拟合就会造成过拟合。过拟合的Ein虽然很小而Eout却很大。
这里写图片描述
这里写图片描述
上述原因可以用下图进行解释,使用高次的函数进行拟合会使d(vc)增加,这会增加假设空间的复杂度,从而使Eout与Ein的差别变大,虽然Ein会减少,但是Eout却增大,反之Eout与Ein的差距虽然比较小,但是Ein由于假设空间复杂度不够所以Ein就会很大,这也会导致Eout很大。
这里写图片描述
这里写图片描述
形象的比喻如下图所示:
过度拟合就像撞车,使用过于复杂的d(vc)就像车开的太快,噪声就像路况不好,过于稀少的数据量就像开车时的视野不好,这样就容易出车祸。
这里写图片描述

二.the Role of Noise and Data Size
下面主要描述噪声和数据量对过度拟合的影响
下图左边的数据由10次多项式和一些噪声产生,我们分别用2次和十次多项式对其进行拟合,我们发现2次的多项式的Ein虽然比十次多项式的Ein高,但是Eout却却比十次多项式的Eout低得多。
右边的数据由50次的多项式产生且没有发生,我们分别用2次和10次多项式进行拟合却得到了与左边同样的结果。
这里写图片描述
以上现象可以用以下两张图进行描述,左边的表示当假设空间复杂度较低时,Ein虽然比较大,但是与Eout的差距却很小,右边表示当假设空间比较大时,Ein虽然比较小但是与Eout的差距却比较大。不过右边模型的潜力在数据量较大时比较好。所以说,当我们对精确度要求不高时,我们需要用简单的模型,当我们的精确度要求很高时,我们必须得用复杂的模型,虽然Eout可能会很大,但是当数据量足够大时,我们的结果将会有更好的表现。
这里写图片描述

三.Deterministic Noise
我们在这里做一个实验来分析上述三种变量对overfitting的影响。
首先,我们用f(x)和一个δ^2的高斯噪声产生一组数据,其中Qf代表f(x)的次数。
注:平均产生50次的数据并不是随机51个系数那么简单。
这里写图片描述
这里写图片描述
然后,我们使用十次多项式和二次多项式的Eout的差来衡量overfitting的程度,差越大overffiting越严重。
这里写图片描述
我们得到如下图所示的结果
左边的图的Qf不变,变量为δ和N,颜色代表overffiting的程度,红色代表严重,蓝色代表轻微。
我们发现当数据量不变时,随机噪声越大,越容易过度拟合。
右边的图的随机噪声δ不变,卞良圩N和Qf。
我们发现,当数据量不变时,Qf越大,越容易过度拟合。
将上述结果进行分析比较我们发现如下四点:
1.学习数据量太少容易导致过度拟合
2.随机噪声太多容易导致过度拟合
3.决定性噪声(Qf)太大容易造成过度拟合
4.过度复杂的假设空间会导致过度拟合
这里写图片描述
这里对决定性噪声进行进一步的解释,当假设空间不存在f时,就会出现决定性噪声,因为假设空间的最好的h也和f有很大的差距。
这里写图片描述
这里写图片描述
四.Dealing with Overfitting
如果我们的学习过程发生了overffiting那么我们该怎么办呢?
以下是几种解决方法:
1.从简单的模型开始学习
2.对数据进行处理使其更加的精准
3.增加数据量即N
4.进行正规化
5.对结果进行验证
第一种方法我们已经学习过了,下面介绍2,3种方法,4,5种方法之后再进行介绍。
这里写图片描述
首先是Data Clearning/Pruning
Clearning就是将我们认为标记错误的数据更改成正确的数据进行学习,不过判断哪个数据是正确哪个错误是个很复杂的过程。
Pruning就是直接将我们认为错误的数据删除,不过这会让数据量变小,并且判断哪个是错的同样复杂。
当数据量很大时,这种方法作用有限
这里写图片描述

然后Data hinting
Data hinting就是对已有数据进行简单的变形(一定要与原数据相似)然后加入学习来增加数据量。比如我们可以将下图的3进行轻微的旋转变成新的数据加入Data中。
这里写图片描述
但是注意:人造的数据一定要和原数据足够相似,不然会出错。
并且加入人造的数据一定会加入人为主观因素,这也会增加,认为主观误差。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值