关联规则挖掘（Apriori算法）

最新推荐文章于 2024-05-18 15:53:33 发布

小金子的夏天

最新推荐文章于 2024-05-18 15:53:33 发布

阅读量6.1k

点赞数 2

分类专栏：机器学习文章标签：关联规则

本文链接：https://blog.csdn.net/WangYouJin321/article/details/98872293

版权

机器学习专栏收录该内容

36 篇文章 3 订阅

订阅专栏

参考连接：

https://www.cnblogs.com/shizhenqiang/p/8251213.html

https://www.cnblogs.com/nxld/p/6380417.html

一、概念

相关概念：项 - 项集 - 频繁项集关联规则支持度/置信度/提升度（计算公式）

表1 某超市的交易数据库

交易号TID	顾客购买的商品	交易号TID	顾客购买的商品
T1	bread, cream, milk, tea	T6	bread, tea
T2	bread, cream, milk	T7	beer, milk, tea
T3	cake, milk	T8	bread, tea
T4	milk, tea	T9	bread, cream, milk, tea
T5	bread, cake, milk	T10	bread, milk, tea

定义一：设I={i1,i2,…,im}，是m个不同的项目的集合，每个ik称为一个项目。项目的集合I称为项集。其元素的个数称为项集的长度，长度为k的项集称为k-项集。引例中每个商品就是一个项目，项集为I={bread, beer, cake,cream, milk, tea}，I的长度为6。

定义二：每笔交易T是项集I的一个子集。对应每一个交易有一个唯一标识交易号，记作TID。交易全体构成了交易数据库D，|D|等于D中交易的个数。引例中包含10笔交易，因此|D|=10。

定义三：对于项集X，设定count(X⊆T)为交易集D中包含X的交易的数量，则项集X的支持度为：

support(X)=count(X⊆T)/|D|

引例中X={bread, milk}出现在T1，T2，T5，T9和T10中，所以支持度为0.5。

定义四：最小支持度是项集的最小支持阀值，记为SUPmin，代表了用户关心的关联规则的最低重要性。支持度不小于SUPmin 的项集称为频繁集，长度为k的频繁集称为k-频繁集。如果设定SUPmin为0.3，引例中{bread, milk}的支持度是0.5，所以是2-频繁集。

定义五：关联规则是一个蕴含式：

R：X⇒Y

其中X⊂I，Y⊂I，并且X∩Y=⌀。表示项集X在某一交易中出现，则导致Y以某一概率也会出现。用户关心的关联规则，可以用两个标准来衡量：支持度和可信度。

定义六：关联规则R的支持度是交易集同时包含X和Y的交易数与|D|之比。即：

support(X⇒Y)=count(X⋃Y)/|D|

支持度反映了X、Y同时出现的概率。关联规则的支持度等于频繁集的支持度。

定义七：对于关联规则R，可信度是指包含X和Y的交易数与包含X的交易数之比。即：

confidence(X⇒Y)=support(X⇒Y)/support(X)

可信度反映了如果交易中包含X，则交易包含Y的概率。一般来说，只有支持度和可信度较高的关联规则才是用户感兴趣的。

定义八：设定关联规则的最小支持度和最小可信度为SUPmin和CONFmin。规则R的支持度和可信度均不小于SUPmin和CONFmin ，则称为强关联规则。关联规则挖掘的目的就是找出强关联规则，从而指导商家的决策。

这八个定义包含了关联规则相关的几个重要基本概念，关联规则挖掘主要有两个问题：

找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集。
利用频繁项集生成所需要的关联规则，根据用户设定的最小可信度筛选出强关联规则。

目前研究人员主要针对第一个问题进行研究，找出频繁集是比较困难的，而有了频繁集再生成强关联规则就相对容易了。

定义九：提升度（lift）

定义：提升度是可信度与期望可信度的比值

通俗解释：提升度反映了“物品集A的出现”对物品集B的出现概率发生了多大的变化。

实例说明：上述的关联规则的提升度=65%/25%=2.6

概率描述：物品集A对物品集B的期望置信度为 lift（A==>B）=confidence（A==>B）/support(B)=p(B|A)/p(B)

支持度是一种重要的度量，因为支持度很低的规则可能只是偶然出现，低支持度的规则多半也是无意义的。因此，

支持度通常用来删去那些无意义的规则；

置信度度量是通过规则进行推理具有可靠性。对于给定的规则X → Y，置信度越高，Y在包含X的事物中出现的可能性就越大。即Y在给定X下的条件概率P(Y|X)越大。

为什么需要提升度呢？

比如：100条购买记录中，有60条包含牛奶，75条包含面包，其中有40条两者都包含。关联规则（牛奶，面包）的支持度为0.4，看似很高，但其实这个关联规则是一个误导。在用户购买了牛奶的前提下，有(40/60 = ) 0.67的概率去购买面包，而在没有任何前提条件时，用户反而有(75/100 = ) 0.75的概率去购买面包。也就是说，设置了购买牛奶的前提会降低用户购买面包的概率，也就是说面包和牛奶是互斥的。

如果lift=1，说明两个事项没有任何关联；如果lift<1，说明A事件的发生与B事件是相斥的。一般在数据挖掘中当提升度大于3时，我们才承认挖掘出的关联规则是有价值的。

二、理论基础

首先来看一个频繁集的性质。

定理：如果项目集X是频繁集，那么它的非空子集都是频繁集。

根据定理，已知一个k-频繁集的项集X，X的所有k-1阶子集都肯定是频繁集，也就肯定可以找到两个k-1频繁集的项集，它们只有一项不同，且连接后等于X。这证明了通过连接k-1频繁集产生的k-候选集覆盖了k-频繁集。同时，如果k-候选集中的项集Y，包含有某个k-1阶子集不属于k-1频繁集，那么Y就不可能是频繁集，应该从候选集中裁剪掉。Apriori算法就是利用了频繁集的这个性质。