分类器的测试和验证

最新推荐文章于 2019-08-06 17:42:23 发布

inte_sleeper

最新推荐文章于 2019-08-06 17:42:23 发布

阅读量3.2k

点赞数

分类专栏：数据挖掘文章标签：测试数据挖掘算法优化

数据挖掘专栏收录该内容

15 篇文章 0 订阅

订阅专栏

转载自：《数据挖掘：实用机器学习技术》

在使用分类算法的时候，通常需要去验证分类算法的准确性。

最简单常用的方法就是将数据划分成三部分：训练集，验证集，测试集。训练集用于创建分类器，验证集用于优化或调整分类器的参数，而测试集用于计算优化的分类器的误差率。一旦误差率确定，就可以将测试集合并到训练集中，将由此产生的新分类器用于实践。

上述方法在对于大数据集的时候可以采用，然而，如果数据集不是很大，那么可以考虑将数据划分为训练集和测试集。实践中，一般使用2/3的数据测试，1/3的数据验证。

然而，有可能用于训练的数据不具代表性。比如分类器将数据分成两个类，而我们划分的测试集恰巧只包含了一个类的数据，而测试集包含了另一个类的数据，显然，这种情况下，一方面分类器有可能会过度拟合，另一方面，对于另一个类由于缺少训练而无法判断。对于这种问题，最简单的方法就是，随机划分训练集和测试集，并进行多次测试。最后将每次迭代的误差率求平均以得到最终的误差率。

一种更为常见的统计学验证方法是，使用交叉验证。它先将数据分为几拆，以3折为例，就是将数据平均分成3份。然后每次取3份中的2份做训练，剩下的1份做测试，这样重复3次。即三折交叉验证。实践中，10折交叉验证被认为是标准方法。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。