数据挖掘（二）模型评估与选择

最新推荐文章于 2022-10-22 20:48:50 发布

youlin121

最新推荐文章于 2022-10-22 20:48:50 发布

阅读量584

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/qew2017/article/details/103075246

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

2.1经验误差与过拟合

分类错误的样本数占样本总数的比例称为“错误率”（e rate），即如果在m个样本中有a个样本分类错误，则错误率E=a/m；

1-a/m称为“精度”（ accuracy），即“精度=1-错误率”

更一般地，我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”（eror这里所说的“误差”均学习器在训练集上的误差称为“训练误差”（ training error）或“经验误差” （empirical error），在新样本上的误差称为“泛化误差”（ generalization eror）。

显然，我们希望得到泛化误差小的学习器，然而，我们事先并不知道新样本是什么样，实际能做的是努力使经验误差最小化。在很多情况下，我们可以学习算法如何最小学得一个经验误差很小、在训练集上表现很好的学习器，例如甚至对所有训练样本都分类正确，即分类错误率为零，分类精度为100%，但这是不是我们想要的学习器呢？遗憾的是，这样的学习器在多数情况下都不好。

我们实际希望的，是在新样本上能表现得很好的学习器。为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”，这样才能在遇到新样本时做出正确的判别。然而，当学习器把训练样本学得“太好”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为过拟合亦称“过配
“过拟合”（ overfitting）。

与“过拟合”相对的是“欠拟合”（ underfitting），这欠拟合亦称“欠是指对训练样本的一般性质尚未学好。学习能力是否“过于强有多种因素可能导致过拟合其中最常见的情况是由于学习能力过于*□以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由学习算法和数据内涵共同决定的于学习能力低下而造成的，欠拟合比较容易克服，例如在决策树学习中扩支、在神经网络学习中增加训练轮数等，而过拟合则很麻烦。在后面的学我们将看到，过拟合是机器学习面临的关键障碍，各类学习算法都必然带有一些针对过拟合的措施，但必须意识到过拟合是无法避免的，只能缓解。

youlin121

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘（二）模型评估与选择

2.1经验误差与过拟合分类错误的样本数占样本总数的比例称为“错误率”（e rate），即如果在m个样本中有a个样本分类错误，则错误率E=a/m；1-a/m称为“精度”（ accuracy），即“精度=1-错误率”更一般地，我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”（eror这里所说的“误差”均学习器在训练集上的误差称为“训练误差”（ training error）...
复制链接

扫一扫