频繁项集
用 R 进行购物篮分析
安装arules包并加载
内置Groceries数据集
library(arules) #加载arules程序包,如果没有install.packages("arules")
data(Groceries) #调用数据文件
inspect(Groceries) #观看数据集里的数据
求频繁项集Eclat算法
frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))
观看频繁项集
inspect(frequentsets[1:10])
inspect(sort(frequentsets,by="support")[1:10]) #根据支持度对求得的频繁项集排序并察看
利用apriori函数提取关联规则
rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
列出关联规则
summary(rules) #察看求得的关联规则之摘要
inspect(rules)
按需要筛选关联规则
x=subset(rules,subset=rhs%in%"whole milk"&lift>=1.2) #求所需要的关联规则子集
inspect(sort(x,by="support")[1:5]) #根据支持度对求得的关联规则子集排序并察看
其中 lift=P(L,R)/(P(L)P(R)) 是一个类似相关系数的指标。 lift=1时表示L和R独立。这个数
越大,越表明L和R存在在一个购物篮中不是偶然现象。
用 R 进行购物篮分析
安装arules包并加载
内置Groceries数据集
library(arules) #加载arules程序包,如果没有install.packages("arules")
data(Groceries) #调用数据文件
inspect(Groceries) #观看数据集里的数据
求频繁项集Eclat算法
frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))
观看频繁项集
inspect(frequentsets[1:10])
inspect(sort(frequentsets,by="support")[1:10]) #根据支持度对求得的频繁项集排序并察看
利用apriori函数提取关联规则
rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))
列出关联规则
summary(rules) #察看求得的关联规则之摘要
inspect(rules)
按需要筛选关联规则
x=subset(rules,subset=rhs%in%"whole milk"&lift>=1.2) #求所需要的关联规则子集
inspect(sort(x,by="support")[1:5]) #根据支持度对求得的关联规则子集排序并察看
其中 lift=P(L,R)/(P(L)P(R)) 是一个类似相关系数的指标。 lift=1时表示L和R独立。这个数
越大,越表明L和R存在在一个购物篮中不是偶然现象。