关联规则挖掘是一种流行的数据挖掘方法,在R语言中为扩展包arules。然而,挖掘关联规则往往导致非常多的规则,使分析师需要通过查询所有的规则才能发现有趣的规则。通过手动筛选大量的规则集是费时费力。在本文中,我们基于探索关联规则的R扩展包arulesViz,提出几个已知的和新颖的可视化技术。
1、简介
算法步骤这里不做详细介绍,下面是几个重要的变量的定义:
Supp(X=>Y) = P(X) Conf(X=>Y) = P(Y|X) Lift(X=>Y) = CONF(X=>Y)/SUPP(Y) = P(X and Y)/(P(X)P(Y))
(Lift)是避免了一些不平衡数据标签的偏差性, Lift越大,则数据质量较好;Lift越小,则数据越不平衡。
2、数据准备和arulesViz的统一接口
使用扩展包arulesViz之前,我们首先需要加载它。这个包会自动加载其他所需要的数据包,如arules。如下面的数据集Groceries包含在arules包里面。
> library("arulesViz") > data("Groceries") > summary(Groceries)
设置支持度为0.001,置信度为0.5,R语句入下:
> rules rules set of 5668 rules
结果共找出了5668条规则。按照Lift降序排,最大的三条规则如下:
> inspect(head(sort(rules, by = "lift"), 3)) lhs rhs suppor