HotSpot关联规则算法（2）-- 挖掘连续型和离散型数据

最新推荐文章于 2022-06-23 19:54:51 发布

fansy1990

最新推荐文章于 2022-06-23 19:54:51 发布

阅读量4.7k

点赞数

分类专栏：关联规则文章标签：关联规则 HotSpot

本文链接：https://blog.csdn.net/fansy1990/article/details/44264141

版权

本篇博客继续分析HotSpot关联规则算法，探讨如何挖掘连续型和离散型数据。文章介绍了数据格式、读取方式的修改（针对连续型数据的处理），并详细解释了算法中节点定义的变化，以及建树过程中的伪代码，特别是针对连续型变量的处理。最后展示了代码实现和输出结果。

摘要由CSDN通过智能技术生成

本篇代码可在 http://download.csdn.net/detail/fansy1990/8502323下载。

前篇《HotSpot关联规则算法（1）-- 挖掘离散型数据》分析了离散型数据的HotSpot关联规则，本篇分析离散型和连续型数据的HotSpot关联规则挖掘。

1. 首先看下数据格式（txt文档）：

@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

此数据参考weka自带数据weather.arff，而且数据格式，比如写上@attribute 等都是参考weka的数据格式来的。下面代码中使用的数据格式如上所述，其格式描述如下：1）前m行以@attribute开头，代码m个属性，其中最后一个为目标属性；2）如果属性是数值型，则在attribute后面空格跟属性名，再空格跟numeric；如果是离散型，那么attribute后面空格跟属性名，再空格使用大括号把离散值括起来，离散值用逗号分隔；3）目标属性必须是离散型的（关于目标属性应该一定要属于离散型的这点要求，其实只是我代码里面这样说而已，一般的HotSpot算法并没有这个要求。如果目标属性一定要求是连续型的，可以在lz代码基础上进行修改）。

2. 数据读取

《HotSpot关联规则算法（1）》中的数据读取是针对离散型的数据的，所以需要进行修改，这里修改后只针对离散型数据进行编码，连续型数据保持即可，同时还需设置一个布尔数组指明属性列属于离散型还是连续型。其读取代码如