机器学习—入门2

最新推荐文章于 2021-09-11 15:03:10 发布

YangHNU

最新推荐文章于 2021-09-11 15:03:10 发布

阅读量434

点赞数

本文链接：https://blog.csdn.net/NanHNU/article/details/53931052

版权

模型评估与选择
2.1经验误差与拟合
经验误差、训练误差—学习器在样本集上的误差
泛化误差—在新样本上的误差
机器学习的目标是得到泛化误差小的学习器，但并不意味着经验误差越小泛化误差就一定越小，经验误差过小时会产生过拟合，会导致泛化性能下降，与之相对的是欠拟合。过拟合是无法避免的，只能缓解。

2.2评估方法
用测试集来测试学习器对于新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似。
2.2.1留出法
将数据集D划分为2个互斥的集合，其中一个作为训练集S，一个作为测试集T。在使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。常见做法是将大约三分之二到四分之五的样本用于训练，测试集至少有30个样本。
2.2.2交叉验证法
交叉验证法也称为”k折交叉验证“，通常将D划分为k个大小相似的互斥子集，每个子集都从D中分层采样，然后将k-1个子集作为训练集，1个子集作为测试集。若只留一个样本作为测试集，这种评估方法叫留一法。
2.2.3自助法
给定包含m个样本的数据集D，我们对它进行采样，产生D’，每次随即从D中挑选一个样本，放入D’，然后再放回D，整个过程重复m次后，大约有D中36.8%的样本未出现到D’中，将D’作为训练集，D\D’作为测试集(\是集合相减)。
自助法适用于数据集较小，难以有效划分训练集和测试集时很有用。
2.3性能度量
回归任务中最常用的性能度量时均方误差
2.3.1错误率和精度