机器学习基石第十三周笔记

最新推荐文章于 2018-11-13 22:44:56 发布

SilenceHell

最新推荐文章于 2018-11-13 22:44:56 发布

阅读量195

点赞数

分类专栏：机器学习基石学习笔记

本文链接：https://blog.csdn.net/Du_Shuang/article/details/81706225

版权

机器学习基石学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一.What’s Overfitting
什么叫作过度拟合？
如下所示，当N=5时，目标f本来是个2次多项式，而我们用5次多项式对这些数据进行拟合就会造成过拟合。过拟合的Ein虽然很小而Eout却很大。
这里写图片描述

上述原因可以用下图进行解释，使用高次的函数进行拟合会使d(vc)增加，这会增加假设空间的复杂度，从而使Eout与Ein的差别变大，虽然Ein会减少，但是Eout却增大，反之Eout与Ein的差距虽然比较小，但是Ein由于假设空间复杂度不够所以Ein就会很大，这也会导致Eout很大。
这里写图片描述

形象的比喻如下图所示：
过度拟合就像撞车，使用过于复杂的d(vc)就像车开的太快，噪声就像路况不好，过于稀少的数据量就像开车时的视野不好，这样就容易出车祸。

二.the Role of Noise and Data Size
下面主要描述噪声和数据量对过度拟合的影响
下图左边的数据由10次多项式和一些噪声产生，我们分别用2次和十次多项式对其进行拟合，我们发现2次的多项式的Ein虽然比十次多项式的Ein高，但是Eout却却比十次多项式的Eout低得多。
右边的数据由50次的多项式产生且没有发生，我们分别用2次和10次多项式进行拟合却得到了与左边同样的结果。
这里写图片描述
以上现象可以用以下两张图进行描述，左边的表示当假设空间复杂度较低时，Ein虽然比较大，但是与Eout的差距却很小，右边表示当假设空间比较大时，Ein虽然比较小但是与Eout的差距却比较大。不过右边模型的潜力在数据量较大时比较好。所以说，当我们对精确度要求不高时，我们需要用简单的模型，当我们的精确度要求很高时，我们必须得用复杂的模型，虽然Eout可能会很大，但是当数据量足够大时，我们的结果将会有更好的表现。
这里写图片描述

三.Deterministic Noise
我们在这里做一个实验来分析上述三种变量对overfitting的影响。
首先，我们用f(x)和一个δ^2的高斯噪声产生一组数据，其中Qf代表f(x)的次数。
注：平均产生50次的数据并不是随机51个系数那么简单。
这里写图片描述

然后，我们使用十次多项式和二次多项式的Eout的差来衡量overfitting的程度，差越大overffiting越严重。

我们得到如下图所示的结果
左边的图的Qf不变，变量为δ和N，颜色代表overffiting的程度，红色代表严重，蓝色代表轻微。
我们发现当数据量不变时，随机噪声越大，越容易过度拟合。
右边的图的随机噪声δ不变，卞良圩N和Qf。
我们发现，当数据量不变时，Qf越大，越容易过度拟合。
将上述结果进行分析比较我们发现如下四点：
1.学习数据量太少容易导致过度拟合
2.随机噪声太多容易导致过度拟合
3.决定性噪声（Qf）太大容易造成过度拟合
4.过度复杂的假设空间会导致过度拟合
这里写图片描述
这里对决定性噪声进行进一步的解释，当假设空间不存在f时，就会出现决定性噪声，因为假设空间的最好的h也和f有很大的差距。

四.Dealing with Overfitting
如果我们的学习过程发生了overffiting那么我们该怎么办呢?
以下是几种解决方法：
1.从简单的模型开始学习
2.对数据进行处理使其更加的精准
3.增加数据量即N
4.进行正规化
5.对结果进行验证
第一种方法我们已经学习过了，下面介绍2，3种方法，4，5种方法之后再进行介绍。
这里写图片描述
首先是Data Clearning/Pruning
Clearning就是将我们认为标记错误的数据更改成正确的数据进行学习，不过判断哪个数据是正确哪个错误是个很复杂的过程。
Pruning就是直接将我们认为错误的数据删除，不过这会让数据量变小，并且判断哪个是错的同样复杂。
当数据量很大时，这种方法作用有限
这里写图片描述

然后Data hinting
Data hinting就是对已有数据进行简单的变形（一定要与原数据相似）然后加入学习来增加数据量。比如我们可以将下图的3进行轻微的旋转变成新的数据加入Data中。
这里写图片描述
但是注意：人造的数据一定要和原数据足够相似，不然会出错。
并且加入人造的数据一定会加入人为主观因素，这也会增加，认为主观误差。

SilenceHell

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石第十三周笔记

一.What’s Overfitting 什么叫作过度拟合？如下所示，当N=5时，目标f本来是个2次多项式，而我们用5次多项式对这些数据进行拟合就会造成过拟合。过拟合的Ein虽然很小而Eout却很大。上述原因可以用下图进行解释，使用高次的函数进行拟合会使d(vc)增加，这会增加假设空间的复杂度，从而使Eout与Ein的差别变大，虽然Ein会减少，但是Eout却增大，反之Eout与...
复制链接

扫一扫