特征离散化系列一方法综述
数值离散化在数据挖掘和发现知识(data mining and knowledge discovery)方面扮演者重要的角色。许多研究表明归纳任务(induction tasks)能从离散化(discretization)中获益:有离散值的规则通常是更简短,更容易理解,并且离散化能改善预测精度(predictive accuracy)。文献中提到的很多归纳算(induction algorithms)法都需要离散特征。所有的这些特点促进研究人员和实践人员(researchers and practitioners)在开展机器学习或者数据挖掘任务之前都要进行连续特征离散化。在文献中能查到很多离散化的方法。本文旨在对离散化方法做一个系统性的研究,追溯它们发展的历史,以及这些方法对分类的影响,速度和精度之间的权衡(trade-off)。本文也给出了不同方法间的对比实验,并对结果进行了分析。本文的贡献主要有:对现存的离散化方法进行概述总结,对现有离散化方法进行归类的层次化结构描述(hierarchical framework),为进一步发展铺路(pave the way),对典型的离散化方法(representative discretization methods)的简要讨论,大量的试验和分析,在不同的应用环境下选择离散化方法的原则。同时也发现了一些需要去解决的问题,以及对离散化的进一步研究。
关键词:discretization; continuous feature; data mining; classification
本文内容结构安排如下:
- 1 概述Introduction
- 2 当前状态current status
- 3 离散化过程discretization process
- 4 离散化框架discretization framework
- 5 实验和分析experiments and analysis
- 6 结论和下一步工作conclusion and future work
1.概述Introduction
数据通常以混合的形式出现:nominal,discrete,continuous。离散或者连续型数据属于定序数据类型(ordinal data types),数据之间有次序,然而对于定类数据类型(nominal data types),数据之间并不拥有次序。对于连续型属性其取值个数是无限大的,离散属性取值通常是有限的。这两种数据类型在学习分类树/规则时是不一样的。相比于连续属性值,离散属性值有一下优点:①通过离散化数据将被简化并且减少;② 离散特征更容易被理解,使用和解释;③ 离散化使学习更加准确,快速;④使用离散特征获得的结果(decision trees,induction rules)更加紧凑,简短,准确,结果更容易进行检查,比较,使用和重复使用;⑤ 很多分类学习算法只能处理离散数据。离散化是量化(quantizing)连续属性的过程。离散化的成功可以很大程度上扩展(extend the borders)许多学习算法的使用领域。
本文回顾了现存的离散化方法,标准化了离散化过程,以一个简要的框架总结了它们,并且为进一步研究和发展提供了一些方便的参考。本文余下的工作按照如下结构组织。Section 2总结了离散化方法的当前状态;Section 3以统一的词汇(unified vocabulary)讨论了不同的离散化方法,定义了离散化的通用处理过程,考虑了不同的离散化结果评价方法,Section 4提出了新的用于离散化方法的层次框架(hierarchical framework),简洁的描述了典型的方法。当描述每一个典型的方法时,我们基于基准数据集(benchmark data set)Iris给出了离散化结果。该数据集是一个小型数据集,通常用于离散化和分类工作,在这里使用是为了说明不同的算法的工作过程。Section 5比较了不同方法的实验结果,并对结果进行了分析。Section 6给出了选择离散化方法的直到准则和下一步工作。
2.当前状态current status
早期,诸如等宽(equal