关联分析中的Groceries数据集

39 篇文章 9 订阅

  用Apriori、FP Growth、eclat算法进行关联分析时中,常常用到Groceries数据集,该数据集是某个杂货店一个月真实的交易记录,共有9835条消费记录,169个商品。在开源软件RGui的arules程序包里含有Groceries数据集,保存格式是.rda,如图(1)所示:

这里写图片描述
图(1) Groceries数据集存放在: ..\R\R-2.15.3\library\arules\data

  下面,进行Grocerices数据集的导出到Groceries.csv中,详细步骤如下。
  1)打开RGui,点击【文件】–》新建程序脚本 –》命名为:groceries.R ,代码如下:
  //groceries.R

##加载程序包
library(arules)
library(Matrix)

##加载Groceries数据集
data(Groceries)

##Groceries数据集的类型
typeof(Groceries)
##将S4类型转换为data.frame类型
cc <- as(Groceries,'data.frame')


##设置RGui的工作路径
setwd("G:\\myProject\\RDoc\\Unit1")
##导出Groceries数据集
write.csv(cc,"Groceries.csv")

  2)选中groceries.R中的全部代码,点击工具栏上的这里写图片描述,如图(2)所示:
  

这里写图片描述
图(2) 执行.R脚本

  3)在G:\myProject\RDoc\Unit1目录,就得到了Groceries.csv数据集,效果如下:
  
这里写图片描述
图(3) Groceries数据集里的内容,有9835行,169列

  Groceries数据集下载地址:
   http://download.csdn.net/detail/sanqima/9301589

Apriori算法是一种常用的关联规则挖掘算法,可以用于从大规模数据集挖掘出频繁项集和关联规则。对于Groceries数据集,可以使用Apriori算法来分析其的频繁项集和关联规则。 首先,我们需要对Groceries数据集进行预处理,将每个顾客购买的物品转换成一个事务,每个事务包含该顾客购买的所有物品。接下来,我们可以使用Apriori算法来挖掘Groceries数据集的频繁项集和关联规则,具体步骤如下: 1. 设置最小支持度和最小置信度阈值。 2. 使用Apriori算法来挖掘频繁项集,得到所有满足最小支持度阈值的项集。 3. 从频繁项集生成关联规则,计算每个规则的置信度。 4. 选择满足最小置信度阈值的关联规则,并对规则进行解释和分析。 对于Groceries数据集,我们可以将最小支持度设置为0.01,最小置信度设置为0.3。根据Apriori算法得到的结果,我们可以得到如下的分析: 1. 频繁项集分析 通过Apriori算法,我们可以得到Groceries数据集的频繁项集。这些频繁项集可以用来了解顾客购买行为的趋势和偏好。例如,我们可能发现经常一起购买的物品,如牛奶和面包、啤酒和薯片等。这些发现可以帮助商家优化产品布局和促销策略。 2. 关联规则分析 通过Apriori算法,我们可以得到Groceries数据集关联规则。这些规则可以用来了解不同物品之间的关系和顾客购物行为的特点。例如,我们可能发现购买了牛奶的顾客也经常购买面包,这可能说明顾客在早餐时会一起购买这两种物品。这些发现可以帮助商家更好地了解顾客需求,提高销售额和顾客满意度。 总的来说,Apriori算法可以帮助我们从Groceries数据集挖掘出有用的信息,从而更好地了解顾客需求和购物行为,提高销售额和顾客满意度。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sanqima

一键三连,多多益善

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值