特征离散化系列(一)方法综述

最新推荐文章于 2024-08-02 23:55:46 发布

RandomSeed

最新推荐文章于 2024-08-02 23:55:46 发布

阅读量1.4w

点赞数 18

分类专栏：机器学习文章标签：特征选择特征离散化机器学习

本文链接：https://blog.csdn.net/CalCuLuSearch/article/details/52751218

版权

致谢老婆大人为本期博客创作配图，你的支持是我坚持下去的动力

特征离散化系列一方法综述

数值离散化在数据挖掘和发现知识(data mining and knowledge discovery)方面扮演者重要的角色。许多研究表明归纳任务(induction tasks)能从离散化(discretization)中获益：有离散值的规则通常是更简短，更容易理解，并且离散化能改善预测精度(predictive accuracy)。文献中提到的很多归纳算(induction algorithms)法都需要离散特征。所有的这些特点促进研究人员和实践人员(researchers and practitioners)在开展机器学习或者数据挖掘任务之前都要进行连续特征离散化。在文献中能查到很多离散化的方法。本文旨在对离散化方法做一个系统性的研究，追溯它们发展的历史，以及这些方法对分类的影响，速度和精度之间的权衡(trade-off)。本文也给出了不同方法间的对比实验，并对结果进行了分析。本文的贡献主要有：对现存的离散化方法进行概述总结，对现有离散化方法进行归类的层次化结构描述(hierarchical framework)，为进一步发展铺路(pave the way)，对典型的离散化方法(representative discretization methods)的简要讨论，大量的试验和分析，在不同的应用环境下选择离散化方法的原则。同时也发现了一些需要去解决的问题，以及对离散化的进一步研究。

关键词：discretization; continuous feature; data mining; classification

本文内容结构安排如下：

1 概述Introduction
2 当前状态current status
3 离散化过程discretization process
4 离散化框架discretization framework
5 实验和分析experiments and analysis
6 结论和下一步工作conclusion and future work

1.概述Introduction

数据通常以混合的形式出现：nominal，discrete，continuous。离散或者连续型数据属于定序数据类型(ordinal data types)，数据之间有次序，然而对于定类数据类型(nominal data types)，数据之间并不拥有次序。对于连续型属性其取值个数是无限大的，离散属性取值通常是有限的。这两种数据类型在学习分类树/规则时是不一样的。相比于连续属性值，离散属性值有一下优点：①通过离散化数据将被简化并且减少；② 离散特征更容易被理解，使用和解释；③ 离散化使学习更加准确，快速；④使用离散特征获得的结果(decision trees,induction rules)更加紧凑，简短，准确，结果更容易进行检查，比较，使用和重复使用；⑤ 很多分类学习算法只能处理离散数据。离散化是量化(quantizing)连续属性的过程。离散化的成功可以很大程度上扩展(extend the borders)许多学习算法的使用领域。

本文回顾了现存的离散化方法，标准化了离散化过程，以一个简要的框架总结了它们，并且为进一步研究和发展提供了一些方便的参考。本文余下的工作按照如下结构组织。Section 2总结了离散化方法的当前状态；Section 3以统一的词汇(unified vocabulary)讨论了不同的离散化方法，定义了离散化的通用处理过程，考虑了不同的离散化结果评价方法，Section 4提出了新的用于离散化方法的层次框架(hierarchical framework)，简洁的描述了典型的方法。当描述每一个典型的方法时，我们基于基准数据集(benchmark data set)Iris给出了离散化结果。该数据集是一个小型数据集，通常用于离散化和分类工作，在这里使用是为了说明不同的算法的工作过程。Section 5比较了不同方法的实验结果，并对结果进行了分析。Section 6给出了选择离散化方法的直到准则和下一步工作。