10折交叉验证（10-fold Cross Validation）与留一法（Leave-One-Out）、分层采样（Stratification）...

最新推荐文章于 2024-01-27 16:17:31 发布

weixin_34311757

最新推荐文章于 2024-01-27 16:17:31 发布

阅读量3.1k

点赞数 1

文章标签： matlab r语言数据结构与算法

原文链接：http://www.cnblogs.com/BlameKidd/p/9735102.html

版权

本文介绍了10折交叉验证、留一法和分层采样的概念与应用。通过实例说明了10折交叉验证的过程，强调了其在数据挖掘中的重要性，并指出了留一法的缺点。同时提到了分层采样的作用，确保每个类别在每个子集中都有代表性。

摘要由CSDN通过智能技术生成

10折交叉验证

我们构建一个分类器，输入为运动员的身高、体重，输出为其从事的体育项目-体操、田径或篮球。

一旦构建了分类器，我们就可能有兴趣回答类似下述的问题：

1. 该分类器的精确率怎么样？
2. 该分类器到底有多好？
3. 和其他分类器相比较，该分类器表现如何？

我们把每个数据集分成两个子集
    - 一个用于构建分类器，该数据集称为训练集（training set）
    - 另一个数据集用于评估分类器，该数据集称为测试集（test set）
    训练集和测试集是数据挖掘中的常用术语。

下面以近邻算法为例来解释为什么不能使用训练数据来测试。如果上述例子中的篮球运动员Marissa Coleman在训练数据中存在，那么身高6英尺1英寸体重160磅的她就会与自己最近。因此，如果对近邻算法进行评估时，若测试集是训练数据的子集，那么精确率总是接近于100%。更一般地，在评估任意数据挖掘算法时，如果测试集是训练数据的子集，那么结果就会十分乐观并且过度乐观。因此，这种做法看起来并不好。

那么我们将数据集分成两部分。较大的那部分用于训练，较小的那部分用于评估。事实表明这种做法也存在问题。在进行数据