离散化和数值概念层次树简介

离散化技术通过将连续属性的值范围分区间,减少数据取值,常见于决策树挖掘的预处理。数值概念层次树通过数据分布分析构造,包括Bin方法、直方图方法、聚类分析和熵方法等。类别概念层次树则依据属性的顺序关系或数据聚合构建,常用于类别数据。预处理后的数据更利于理解和挖掘。
摘要由CSDN通过智能技术生成

离散化技术方法可以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。可以用一个标签来表示一个区间内的实际数据值。在基于决策树的分类挖掘中,消减属性取值个数的离散化处理是一个极为有效的数据预处理步骤。

图 1 所示是一个年龄属性的概念层次树。概念层次树可以通过利用较高层次概念替换低层次概念(如年龄的数值)来减少原有数据集的数据量。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。

数值概念层次树

由于数据的范围变化较大,所以构造数值属性的概念层次树是一件较为困难的事情。利用数据分布分析,可以自动构造数值属性的概念层次树。其中,主要的几种构造方法如下。

1. Bin 方法

Bin 方法是一种离散化方法。例如,属性的值可以通过将其分配到各 Bin 中而将其离散化。利用每个 Bin 的均值和中位数替换每个 Bin 中的值(利用均值或中位数进行平滑),并循环应用这些操作处理每次的操作结果,就可以获得一个概念层次树。

年龄属性的概念层次树
图 1  年龄属性的概念层次树

2. 直方图方法

直方图方法也可以用于离散化处理。例如,在等宽直方图中,数值被划分为等大小的区间,如(0,100],(100,200],…,(900,1000]。

循环应用直方图方法处理每次的划分结果,当达到用户指定层次水平后结束划分&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值