关联规则之购物篮分析

最新推荐文章于 2024-03-01 10:00:00 发布

Sim1480

最新推荐文章于 2024-03-01 10:00:00 发布

阅读量4.6k

点赞数 3

购物篮分析常用于许多实体商店和在线零售的推荐系统，通过关联规则，可以将经常一起购买的商品进行组合，实现销量的提升。

关联规则中有三个非常重要的指标：支持度、可信度和提升度。

支持度，指所有项集中，同时购买X和Y的可能性，数学表达式可表示为：

640?wx_fmt=png

该指标可以为频繁项集指定一个阈值，从而剔除出现频率比较低的项集。

置信度，表示关联规则X-->Y中，发生X的前提下也出现了Y，其实就是一种条件概率，其数学表达式为：

640?wx_fmt=png
该指标可控制哪些项集为强关联项集，即购买X的情况下有多大把握购买Y。

提升度，表示出现X的条件下同时出现Y的可能性与没有任何条件下出现Y的可能性之比，可用数学表达式表示为：

640?wx_fmt=png
该指标是置信度的补充，用来判断X与Y之间是否独立，不独立的话关联性有多强。一般提升度等于1时，表示X与Y之间是独立的，即X的出现对Y的出现没有派上仍然作用；提升度大于1，且值越大说明X对Y的影响越大，关联性也就越强。

有关更多相关的详细信息可参考本公众号《基于R语言的关联规则实现》一文。（http://mp.weixin.qq.com/s?__biz=MzIxNjA2ODUzNg==&mid=400031123&idx=1&sn=b15fe3380d959494e7a160d3ccefc1dd#rd）

关联规则算法的背后有一条非常重要的原则，即一个频繁项集的子集也一定是频繁的，换句话说，一个项集如果不是频繁项集，其超项集也一定不是频繁项集。利用该性质可以大大减少算法对数据的遍历次数。

R语言中有关关联规则算法的实现，函数语法和参数含义如下：

apriori(data, parameter = NULL, appearance = NULL,

control = NULL)

data为apriori函数所能接受的“交易”格式数据，可以通过as()函数将常见的二元矩阵、数据框进行转换；

parameter以列表的形式存储模型所需的支持度、置信度、每个项集所含项数的最大值/最小值和输出结果类型等参数，默认情况下支持度为0.1，置信度为0.8，项集中最大项数为10，最小项数为1，输出关联规则/频繁项集类型的结果；

appearance可为先决条件X和关联结果Y指定明确的项集（一般是分析人员感兴趣的项集），默认情况下不为X和Y指定某些项集；

control用来控制函数性能，如对项集进行升序或降序，生成算法运行的报告进程等。

应用：

本案例数据来自真实的超市购物数据，包含了一个月内产生的9835条交易，具体数据可至后文的链接中下载。

由于超市的购物篮数据属于典型的事务型数据，其存储格式不同于常见的数据框格式，具体如下图所示：

0?wx_fmt=png

数据集中每一行表示每一笔交易，而每一行中的元素则表示交易中所包含的商品，这里就没有字段或变量的概念。对于这样的数据集，需要进行0-1处理，即将事务型数据转换为稀疏矩阵，使得数据的每一行表示每一笔交易，而每一列则表示商品名称，矩阵中的元素用0-1表示，0表示交易记录中不存在某种商品，相反1则表示交易中出现某种商品。

使用arules包中的read.transactions()函数读取事务型数据集

library(arules)

读取数据

transactions <- read.transactions(file = file.choose(), format = 'basket', sep = ',')

使用inspect函数查看前6条交易数据

inspect(transactions[1:6])

0?wx_fmt=png

使用summary()函数查看交易数据的概览信息

summary(transactions)

0?wx_fmt=png

结果中包含4部分结果：

1）说明交易数据包含9835条交易记录，涉及到169种商品

2）列出了出现在购物篮中最为频繁的几种商品，如whole milk(全职牛奶)出现在2513个交易记录中

3）列出购物篮中包含商品数量的交易条数，如有2159条交易仅购买1种商品，仅有1条交易购买32种商品

4）对购物篮中交易的商品数量进行汇总，包括五数和均值，Mean表示所有购物篮中平均含有4~5件商品

通过itemFrequencyPlot()函数查看前N种商品的支持度

绝对数量显示

itemFrequencyPlot(transactions, type = 'absolute', topN = 10 )

0?wx_fmt=png 相对数量显示(支持度)

itemFrequencyPlot(transactions, type = 'relative', topN = 10 )

0?wx_fmt=png

构建Apriori模型

rules <- apriori(data = transactions)

rules

0?wx_fmt=png
如果使用Apriori算法的默认参数设置时将产生0条规则，由于默认的支持度为10%，可信度为80%，对于当前的9835条交易记录来说过高，使得没有这样的交易满足这两个条件。故需要人为调整支持度和可信度,这里不妨将支持度设置为1%，即认为某种商品在购物篮中至少出现98次，可信度设置为30%，即认为同时出现某几种商品组合的概率为30%。