运用RapidMiner进行关联分析(算子有read csv,select attribute,fp-growth,create association rules)

目录

问题

导入数据

方法一:通过工具栏选择Import,导入数据“数据集-关联分析.csv”

​编辑方法二:通过算子载入数据集

数据探索

结果透视图

 Step1:检查数据缺失值、异常值

Step2:约减数据集中属性

Step3: FP-Growth找到频繁项集

​编辑

Step4:产生关联规则:Create Association Rules

调整FP-Growth的支持度(Support)参数


运用RapidMiner进行关联分析(算子有read csv,select attribute,fp-growth,create association rules)

问题

Roger是一个居民社区的管理者。社区内的居民都非常热衷于参加各种社区组织。鉴于此,Roger认为可以充分利用社区组织间的现有关联,通过让一些团体合作,来扩展社区居民的社交圈,开展一系列有利于整个社区的工作。 他知道社区中有教会、社会组织、兴趣爱好协会、政治组织、专业组织、援助导向型组织。 他不知道团体之间是否存在联系,从而让两个或多个团体之间自然地开展项目合作。 他认为首先应该找出区域内不同类型团体之间是否存在关联。

 为了进一步了解居民参与社区组织的情况,Roger创建了一个面向居民的在线调查。每个受邀参与调查的居民都将获得一个唯一的标识码,以确定有多少人参与调查。调查后,Roger获得了一个包含以下属性的数据集:

Elapsed_Time: 每个调查对象完成调查所用的时间。精确到0.01分钟。

Time_in_Community: 用于询问调查对象在该社区的居住时间是0-2年、3-9年,还是10年以上,并在数据集中分别记录为“Short”、“Medium”或“Long”。

Gender: 调查对象性别。

Working: 调查对象是否从事有薪工作,结果为yes/no。

Age: 调查对象年龄。

Family: 调查对象是否结婚,结果为yes/no。

Hobbies: 调查对象是否参与兴趣爱好协会,结果为yes/no。

Social_Club: 调查对象是否参与社会组织,结果为yes/no。

Political: 调查对象是否参与政治组织,结果为yes/no。 Professional: 调查对象是否参与专业组织,结果为yes/no。

Religious: 调查对象是否参与教会组织,结果为yes/no。

Support_Group: 调查对象是否参与援助导向型组织,结果为yes/no。

为了解答Roger的问题,他请我们构建一个关联规则模型,以找出社区组织之间的关联。

导入数据

方法一:通过工具栏选择Import,导入数据“数据集-关联分析.csv”

说明: 点击资源库上的导入按钮

点击从电脑导入

从文件管理器中选择对应的文件后点next 持续点next直到出现存储位置

点击local repository并点击finish结束导入

导入成功后会弹出导入的结果

使用时直接拖拽数据集进入流程视图即可 

方法二:通过算子载入数据集

数据探索

查看读入数据 运行后,若算子状态指示符变为绿色,则表示运行成功; 其他算子状态指示符

(1)状态指示灯:红色指示灯说明有参数未被设置或输入端口未被连接等问题,黄色指示灯说明还未执行算子,不管配置是否基本齐全,绿色指示灯说明一切正常,已成功执行算子。

(2)三角警示牌:用于表明是否有算子的状态信息出现。 (3)断点:用于表明分析员是否在这个算子前面或是后面暂停了流程,以检测中间效果。

(4)注释:如果这个算子中出现了注释,则会通过这个图标表示出来。

(5)子流程:这个图标用来指示是否有子流程。双击算子可以进入子流程。 

结果透视图

运行成功后,RapidMiner会自动跳转到结果透视图下。 在结果透视图下,可以实现原始数据的查看、描述性统计、数据可视化(统计图表绘制)等基本功能。

数据干净,没有缺失值

Time_in_Community:居民在社区居住时间较长

Gender:男女比例较为均衡

Working:社区中的居民大约有一半有工作

Age:社区居民较为年轻,平均年龄36岁

Family:社区中超过半数以上的人没有结婚

社区组织相关字段: - 社区的人群接近半数人参与了专业组织,专业技能普遍较强;兴趣爱好类、宗教类组织受到大家广泛参与;参与政治组织的人较少 

 

 Step1:检查数据缺失值、异常值

我们发现包括Religious在内的很多字段值是0或1 数据转换:引入Numerical to Binominal算子,将Religious等字段的数据类型由0/1转换为二值型True/False可能更为直观,也会更利于后续的处理 

Step2:约减数据集中属性

只保留与社区组织类别相关的属性:Select Attributes算子

Step3: FP-Growth找到频繁项集

 

宗教组织与兴趣爱好协会可能存在关联关系

Step4:产生关联规则:Create Association Rules

在当前参数设置下,没有关联规则产生 

调整FP-Growth的支持度(Support)参数

参加了兴趣爱好协会、社会组织的居民,往往也会参加宗教协会。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值