<机器学习>(周志华)读书笔记 -- 第二章模型评估与选择

最新推荐文章于 2024-07-27 23:44:59 发布

ANONYMOUSLYCN

最新推荐文章于 2024-07-27 23:44:59 发布

阅读量3k

点赞数 4

分类专栏：机器学习读书文章标签：读书笔记机器学习周志华性能评估

本文链接：https://blog.csdn.net/geng333abc/article/details/55049739

版权

机器学习读书专栏收录该内容

6 篇文章 0 订阅

订阅专栏

随手记下所学知识，很多图表来自原书，仅供学习使用！

2.1 经验误差与过拟合

通常,我们使用"错误率"来表示分类中错误的样本占总样本的比例.如果m个样本中有a个错误样本则错误率E=a/m

,对应的,1-a/m称为精度,即"精度"=1-"错误率".更一般的情况来说,我们把机器学习的预测输出和样本真实输出之间的差异称为"训练误差"或者"经验误差".

一般来说,如果在训练集中的表现精度高,而在测试集中表现的精度小,一般是过拟合.相反,如果是精度都不高一般是欠拟合.我们本来的目的是把训练集这一类的特征学出来,也就是要找训练集和测试集的共同特征,但是,虽然类有共性,但是每个个体之间是有差异的,如果是把训练集自身的特征当成了这一类的特征,就是过拟合,如果,没有学到什么,训练集(有可能训练集也不低)测试集精度低,一般就是过拟合.比如说,训练的时候是用的哈士奇,但是测试的时候是金毛,如果因为金毛耳朵,颜色和哈士奇不一样而不认为金毛是狗,就是过拟合,但是如果是因为看到体型差不多,就认为是狗,就是欠拟合.(金毛和哈士奇图片来自网络,侵权就删...)

更加恰当的例子应该还是来自与原书.

2.2 评估方法

在测试过程中,我们一般会找一个测试集,测试集数据不在训练中出现.至于为怎么,很容易理解,就像学生考试一样,用平时的训练题作为考试题,这样就不能考出来举一反三的能力,可以看为是机械记忆.机器学习,本来就是要做一个能够举一反三的模型,要是考记忆能力,还不如直接弄个记事本,然后Ctrl+F直接查找文件中的关键字.

那么还有一个问题,数据集就有一个,既要测试,又要训练应该如何做呢?很简单,分一为二.直接把一个数据集分成两个,一个作为数据集,一个作为训练集.

2.2.1留出法

"留出法"是将数据集分成两个相斥的集合.但是要保证是均匀的划分,简单的说是把数据集打乱以后在里面抽取多少是个有效的办法.例如,对于判断是否是树叶这个数据中,把是的一类和不是的分开.那么这个划分基本上就是没有意义的.

2.2.2 交叉验证法

其实上面的划分方法有个问题,就是貌似没有充分利用每个数据来训练模型.对于这个问题,人们又想到了一个方法,就是把数据混合均匀以后,分成没有交集的k份,每一次把其中的一份作为测试,其他作为训练,然后对k个结果求平均.这个方法成为"K折交叉验证",一般人们把k取值为10.如果有m的数据而k=m,那么这个情况就比较特殊了,就被成为了"留一法".留一法能够保证让每次的训练集和原来的数据集尽可能的接近,从而保证了准确性.但是,想想就知道,恐怕要训练测试m次了,而m很大的时候,几乎不可能实现(当然,有恒心有毅力者大有人在).

简单的图片来说明就是: