HotSpot关联规则算法(2)-- 挖掘连续型和离散型数据

本篇博客继续分析HotSpot关联规则算法,探讨如何挖掘连续型和离散型数据。文章介绍了数据格式、读取方式的修改(针对连续型数据的处理),并详细解释了算法中节点定义的变化,以及建树过程中的伪代码,特别是针对连续型变量的处理。最后展示了代码实现和输出结果。
摘要由CSDN通过智能技术生成

本篇代码可在 http://download.csdn.net/detail/fansy1990/8502323下载。

前篇《HotSpot关联规则算法(1)-- 挖掘离散型数据》分析了离散型数据的HotSpot关联规则,本篇分析离散型和连续型数据的HotSpot关联规则挖掘。

1. 首先看下数据格式(txt文档):

@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
此数据参考weka自带数据weather.arff,而且数据格式,比如写上@attribute 等都是参考weka的数据格式来的。下面代码中使用的数据格式如上所述,其格式描述如下:1)前m行以@attribute开头,代码m个属性,其中最后一个为目标属性;2)如果属性是数值型,则在attribute后面空格跟属性名,再空格跟numeric;如果是离散型,那么attribute后面空格跟属性名,再空格使用大括号把离散值括起来,离散值用逗号分隔;3)目标属性必须是离散型的(关于目标属性应该一定要属于离散型的这点要求,其实只是我代码里面这样说而已,一般的HotSpot算法并没有这个要求。如果目标属性一定要求是连续型的,可以在lz代码基础上进行修改)。

2. 数据读取

《HotSpot关联规则算法(1)》中的数据读取是针对离散型的数据的,所以需要进行修改,这里修改后只针对离散型数据进行编码,连续型数据保持即可,同时还需设置一个布尔数组指明属性列属于离散型还是连续型。其读取代码如

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值