分类算法的比较准则

不同的分类方法有不同的特性,侧重于不同的数据集,对于同一个数据集不同的分类方法也会产生不同的分类结果。那么对于同一问题,究竟应该采用那种方法更好呢?这一问题一般有以下五种评价方法或者叫做比较准则。

1.分类精度。这是用得最多也是最为有效得一种评价尺度。对于预测型得分类任务,分类精度是指元组被正确分配到其所在的类别中的个数占元组总个数的百分比。

2.分类速度。这是一个传统的算法度量方法,但是计算速度是由多种因素共同决定的如所使用的机器的硬件环境,算法本身的时间复杂度,数据质量的好坏等等。这个指标也是一个非常非常重要的度量准则,而且数据集越大该问题就越突出。

3.模型描述的简洁性和可解释性。模型的简洁度标准也很重要,特别是对于描述型的分类任务,模型描述模型越复杂,其结果就越难以理解,应用当然也就越困难,模型描述愈简洁,愈容易理解,则愈受欢迎。可解释性就是所分类出来的结果要尽量让人看得懂,其结果尽量以可视化的方式(如图,表等)或规则来显示给用户。

4.分类模型对各种数据的适应度。由于所分析的数据对象中经常会存在不完整数据,噪声数据,不一致数据或者数据分布是稀疏的,因此一个好的分类器需要能够对各种类型的数据集有较强的适应能力。

5.可伸缩性可伸缩性是指分类算法对海量数据具有有效构建模型的能力。具有良好可伸缩性的算法也是现在的一个研究热点,因为现存的许多方法在小数据集上的却有非常好的表现,但是一用到大数据集上,其表现就不尽人意。所以可伸缩性也是很重要的一个方面。

 

影响一个分类器错误率的因素

(1)训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。

(2)属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得生成器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出不够准确的分类器(这在技术上被称为过分拟合)。因此,如果我们通过常识可以确认某个属性与目标无关,则将它从训练集中移走。

(3)属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签(如试图根据某人眼睛的颜色来决定他的收入)。加入其他的属性(如职业、每周工作小时数和年龄),可以降低错误率。

(4)待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布,那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器,那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途,因为数据属性值的分布可能是有很大差别的。

 参考: 

 http://www.360doc.com/content/080514/01/63626_1257836.html

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值