R语言与数据分析之十:购物篮分析

提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;

常见关联规则:

关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】

支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,来限定规则的产生;

置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生;

最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定。

与关联分析相关的专业术语包括:

项集:项(商品)的集合

k-项集:k个项组成的项集

频繁项集:满足最小支持度的项集,频繁k-项集一般记为Lk

强关联规则:满足最小支持度阈值和最小置信度阈值的规则

接下来以两步法为例,揭秘下关联分析的做法:

如下有9个购物篮(T100-T900):两步法先找出所有的频繁项集;第二步再由频繁项集产生强关联规则。


算法步骤:

Step1:扫描D,对每个候选项计数,生成候选1-项集C1,并算出每项的关联度计数(即该项出现的频数);
Step2:定义最小支持度阀值为2(即剔除频数低于2的项),记剩余的项集为L1;
Step3:由L1 两两配对生成新的2-项集C2;
Step4:扫描D,对C2里每个项计数,定义最小支持度阀值为2(即剔除频数低于2的项),记剩余的项集为2-项集L2;
Step5:由L2 两两配对生成新的3-项集C3;
……如此循环,直至出现最大的n-项集结束;

以上述例子为例,图解过程如下:


如图为例,我们计算频繁项集{I1,I2,I5},可以发现I1^I2=>I5,由于{I1,I2,I5}出现了2次,{I1,I2}出现了4次,故置信度为2/4=50%

类似可以算出:


利用R进行购物篮分析,R中关联分析函数为arules,我们采用内置的Groceries的数据集(如下);

Inspect(Groceries)

具体的R语言实现如下:

library(arules)
data(Groceries)
frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))
inspect(sort(frequentsets,by="support")[1:10]) #根据支持度对求得的频繁项集排序

结果如下:可见所有的关联规则的排名:

接下来以阀值挑选我们的需要的关联项:

rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
inspect(rules)

由此可见购物篮就完成,其中lift是相关度指标,lift=1表示L和R独立,lift越大表明L和R在同一购物篮绝非偶尔现象,更加支持我们的购物篮决策。



  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值