周志华机器学习（二）模型评估与选择

最新推荐文章于 2024-03-21 18:24:00 发布

Nefelibat

最新推荐文章于 2024-03-21 18:24:00 发布

阅读量263

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_41821067/article/details/108802879

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

误差

经验误差：学习器在训练集上的误差
泛化误差：学习器在新样本上的误差

经验误差小的不一定使得泛化误差小？
当学习器在训练样本学的太好，就会把训练样本的一些性质作为潜在的一些性质。这样就会忽略新样本的性质，导致泛化性下降。这种现象称为过拟合。。
导致过拟合的因素：学习因素太过强大，把训练样本包含的不太一般的特性都学到了。
欠拟合：学习能力低下？？在决策树学习中扩展分支，在神经网络学习中增加训练轮数。

我们是无法直接获取泛化误差的，而训练误差因为过拟合的现象不适合作为标准，在现实生活中如何进行模型评估与选择呢？？

通过使用测试集来测试学习机器对于新样本的判别能力，作为泛化误差
注意：测试集要与训练集互斥，不在训练集中出现，未在训练集过程中使用过。

怎样从数据集中选出训练集和测试集
1，留出法：直接将数据集划分为两个互斥的集合，
注意：要保证数据集，训练集和测试集的类比例一致
若干次使用留出法，取得平均值
2.交叉验证法
将数据集划分为K个互斥子集，然后每次从中选k-1个作为训练集，1个作为测试集，这样就会有k种测试结果。
3.自助法
由于我们评估的数据集训练出来的模型，留出法和交叉验证法使得训练集只是数据集的一部分，所有有误差，留一法（留一个作为测试集），由于训练集的规模过大，计算复杂度太高
自助法直接以自助采样法为基础，给定M个样本的数据集，每次从数据集中随机取出一个样本放入D‘中，然后再放回D中，使得该样本在下次取样的时候仍然可以被取到，重复M次，
适用于数据集小，难以有效划分训练，对集成学习等方法具有很大的好处，在初始数据集大时候，适用留出法和交叉验证法