目录
方法一:通过工具栏选择Import,导入数据“数据集-关联分析.csv”
Step4:产生关联规则:Create Association Rules
运用RapidMiner进行关联分析(算子有read csv,select attribute,fp-growth,create association rules)
问题
Roger是一个居民社区的管理者。社区内的居民都非常热衷于参加各种社区组织。鉴于此,Roger认为可以充分利用社区组织间的现有关联,通过让一些团体合作,来扩展社区居民的社交圈,开展一系列有利于整个社区的工作。 他知道社区中有教会、社会组织、兴趣爱好协会、政治组织、专业组织、援助导向型组织。 他不知道团体之间是否存在联系,从而让两个或多个团体之间自然地开展项目合作。 他认为首先应该找出区域内不同类型团体之间是否存在关联。
为了进一步了解居民参与社区组织的情况,Roger创建了一个面向居民的在线调查。每个受邀参与调查的居民都将获得一个唯一的标识码,以确定有多少人参与调查。调查后,Roger获得了一个包含以下属性的数据集:
Elapsed_Time: 每个调查对象完成调查所用的时间。精确到0.01分钟。
Time_in_Community: 用于询问调查对象在该社区的居住时间是0-2年、3-9年,还是10年以上,并在数据集中分别记录为“Short”、“Medium”或“Long”。
Gender: 调查对象性别。
Working: 调查对象是否从事有薪工作,结果为yes/no。
Age: 调查对象年龄。
Family: 调查对象是否结婚,结果为yes/no。
Hobbies: 调查对象是否参与兴趣爱好协会,结果为yes/no。
Social_Club: 调查对象是否参与社会组织,结果为yes/no。
Political: 调查对象是否参与政治组织,结果为yes/no。 Professional: 调查对象是否参与专业组织,结果为yes/no。
Religious: 调查对象是否参与教会组织,结果为yes/no。
Support_Group: 调查对象是否参与援助导向型组织,结果为yes/no。
为了解答Roger的问题,他请我们构建一个关联规则模型,以找出社区组织之间的关联。
导入数据
方法一:通过工具栏选择Import,导入数据“数据集-关联分析.csv”
说明: 点击资源库上的导入按钮
点击从电脑导入
从文件管理器中选择对应的文件后点next 持续点next直到出现存储位置
点击local repository并点击finish结束导入
导入成功后会弹出导入的结果
使用时直接拖拽数据集进入流程视图即可
方法二:通过算子载入数据集
数据探索
查看读入数据 运行后,若算子状态指示符变为绿色,则表示运行成功; 其他算子状态指示符
(1)状态指示灯:红色指示灯说明有参数未被设置或输入端口未被连接等问题,黄色指示灯说明还未执行算子,不管配置是否基本齐全,绿色指示灯说明一切正常,已成功执行算子。
(2)三角警示牌:用于表明是否有算子的状态信息出现。 (3)断点:用于表明分析员是否在这个算子前面或是后面暂停了流程,以检测中间效果。
(4)注释:如果这个算子中出现了注释,则会通过这个图标表示出来。
(5)子流程:这个图标用来指示是否有子流程。双击算子可以进入子流程。
结果透视图
运行成功后,RapidMiner会自动跳转到结果透视图下。 在结果透视图下,可以实现原始数据的查看、描述性统计、数据可视化(统计图表绘制)等基本功能。
数据干净,没有缺失值
Time_in_Community:居民在社区居住时间较长
Gender:男女比例较为均衡
Working:社区中的居民大约有一半有工作
Age:社区居民较为年轻,平均年龄36岁
Family:社区中超过半数以上的人没有结婚
社区组织相关字段: - 社区的人群接近半数人参与了专业组织,专业技能普遍较强;兴趣爱好类、宗教类组织受到大家广泛参与;参与政治组织的人较少
Step1:检查数据缺失值、异常值
我们发现包括Religious在内的很多字段值是0或1 数据转换:引入Numerical to Binominal算子,将Religious等字段的数据类型由0/1转换为二值型True/False可能更为直观,也会更利于后续的处理
Step2:约减数据集中属性
只保留与社区组织类别相关的属性:Select Attributes算子
Step3: FP-Growth找到频繁项集
宗教组织与兴趣爱好协会可能存在关联关系
Step4:产生关联规则:Create Association Rules
在当前参数设置下,没有关联规则产生
调整FP-Growth的支持度(Support)参数
参加了兴趣爱好协会、社会组织的居民,往往也会参加宗教协会。