关联规则可视化

最新推荐文章于 2024-04-22 23:03:04 发布

weixin_34217711

最新推荐文章于 2024-04-22 23:03:04 发布

阅读量4k

点赞数 1

文章标签： python javascript 开发工具 ViewUI

原文链接：https://my.oschina.net/u/2254515/blog/333324

版权

2019独角兽企业重金招聘Python工程师标准>>>

关联规则挖掘是一种流行的数据挖掘方法，在R语言中为扩展包arules。然而，挖掘关联规则往往导致非常多的规则，使分析师需要通过查询所有的规则才能发现有趣的规则。通过手动筛选大量的规则集是费时费力。在本文中，我们基于探索关联规则的R扩展包arulesViz，提出几个已知的和新颖的可视化技术。

1、简介

算法步骤这里不做详细介绍，下面是几个重要的变量的定义：

Supp(X=>Y) = P(X) Conf(X=>Y) = P(Y|X) Lift(X=>Y) = CONF(X=>Y)/SUPP(Y) = P(X and Y)/(P(X)P(Y))

(Lift)是避免了一些不平衡数据标签的偏差性， Lift越大，则数据质量较好；Lift越小，则数据越不平衡。

2、数据准备和arulesViz的统一接口

使用扩展包arulesViz之前，我们首先需要加载它。这个包会自动加载其他所需要的数据包，如arules。如下面的数据集Groceries包含在arules包里面。

> library("arulesViz") > data("Groceries") > summary(Groceries)

设置支持度为0.001，置信度为0.5，R语句入下：

> rules <- apriori(Groceries, parameter = list(support = 0.001, confidence = 0.5)) > rules set of 5668 rules

结果共找出了5668条规则。按照Lift降序排，最大的三条规则如下：

> inspect(head(sort(rules, by = "lift"), 3))  lhs rhs support confidence lift 1 {Instant food products,   soda} => {hamburger meat} 0.001220132 0.6315789 18.99565 2 {soda,   popcorn} => {salty snack} 0.001220132 0.6315789 16.69779 3 {flour,   baking powder} => {sugar} 0.001016777 0.5555556 16.40807