数据挖掘之离散化和概念分层学习笔记

本文探讨了数据挖掘中的离散化和概念分层技术,旨在减少连续属性值的数量,提高分类挖掘效率。介绍了五种数值概念分层方法:分箱、直方图分析、聚类分析、基于熵的离散化和自然划分数据分段。这些方法通过创建概念分层,降低数据复杂性,提高数据解释性和存储效率。
摘要由CSDN通过智能技术生成

离散化和概念分层产生

通过将属性域划分为区间,离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法,减少属性值的数量特别有好处。通常,这种方法是递归的,大量的时间花在每一步的数据排序上。因此,待排序的不同值越少,这种方法就应当越快。许多离散化技术都可以使用,以便提供属性值的分层或多维划分——概念分层

 

对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集并用较高层的概念(对

于年龄属性,如young, middle-age senior)替换较低层的概念(如,年龄的数值值),概念分层可以用来归约数据。通过这种泛化,尽管细节丢失了,但泛化后的数据更有意义、更容易解释,并且所需的空间比原数据少。在归约的数据上进行挖掘,与在大的、未泛化的数据上挖掘相比,所需的I/O 操作更少,并且更有效

 

对于用户或领域专家,人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而,许多分层蕴涵在数据库模式中,并且可以在模式定义级定义。概念分层常常自动地产生,或根据数据分布的统计分析动态地加以提炼。

 

数值属性的概念分层可以根据数据分布分析自动地构造。五种数值概念分层产生方法:分

箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段。

 

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值