多种分类器

摘要

本文共介绍了179中分类器,来自于17个不同的类别(辨别分析,贝叶斯神经网络,支持向量机,决策树,基于规则的分类器,boosting算法,随机森林,最近邻,主成分回归等等),使用不同的编程语音,UCI上的12个数据集和其他一些真实的数据,来获得关于分类器的有意义的结论。这其中分类效果最好的是随机深林(random forest),其次是SVM,神经网络和boosting ensembles。

introduction

不同的分类器来自于不同的数学以及计算机的研究背景,

classifier families分类器名称
统计学线性判别分析,广义线性模型
人工智能和数据挖掘基于规则的分类器,决策树
联结主义方法神经网络

不同的分类器在不同的数据集上有不同的表现,本文主要做的工作有以下四个:

  1. 选出分类效果最好的分类器
  2. 将每个分类器按照他的准确度进行排序
  3. 确定每一个分类器的可以达到的最好的分类精度
  4. 评估在不同的数据集下的分类器的性能的变化

在使用UCI测试数据集进行测试的过程中容易出现一些有趣的错误,下面综合这些错误并讨论如何避免

  1. 有时使用的测试数据集会使得实验结果不准确,因此本文所使用的数据集都是来自于UCI分类库,这样可以避免一些小数据集得到不准确结果的情况,当然不能说UCI的所有数据集合都是完整、可靠地标准化的试验样本。
  2. 在提出一个新的分类器时存在两个问题:以往的一些文章是否选择的learners足够多,以及是否将选择的learners都配置到了它们最好的一个状态。有的时候对分类器的知识储备并不足,就一通乱改,这样在对分类器进行优化的时候会使结果跑偏。因此本文不会随意的更改以往的经典分类器算法,只是调参来使分类效果达到最好。
  3. 很难获得一个分类器在一个数据集上可能达到的最大的精度,这对评估分类器很困难。本文做一个假定就是所有得到的最高的准确度就是分类器的最高准确度。
  4. 数据集可能不完整,也可能存在错误,也就是所谓的噪声,那么本文还是认为测到的就是准确的,哪个分类器效果不好也是因为分类器自身的局限性。
  5. 缺乏标准的数据分割,本文的解决方法就是对每个数据集使用相同的分割方法

实验结论

通过实验发现大部分的分类器能够获得最好分类效果的可能性小于10%,实验中有二十个分类器的最高准确率高于95%

引用文章:Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值