【机器学习】关联规则与Apriori算法

最新推荐文章于 2024-05-31 16:54:13 发布

artzers

最新推荐文章于 2024-05-31 16:54:13 发布

阅读量1.1k

点赞数

分类专栏：模式识别与机器学习数据挖掘文章标签：机器学习算法

本文链接：https://blog.csdn.net/lpsl1882/article/details/52589314

版权

模式识别与机器学习同时被 2 个专栏收录

46 篇文章 6 订阅

订阅专栏

数据挖掘

9 篇文章 0 订阅

订阅专栏

关联规则

　　日常事务中，我们留意到事务中有些项目往往同时发生，于是开始挖掘这些项目之间的关联。要确定哪些事务项目有关联，我们需要给出合理的关联规则和算法。
　　关联规则中重要的概念有支持度和置信度。如果事务项目或者事务项目集合A发生了，导致事务项目或者事务项目集合B发生，那么认为A->B。假设事务数量为M，事务项目或者事务项目集合发生次数为k，那么支持度为 $support=\frac{k}{M}$ 。假设事务项目或者事务项目集 $A\cup B$ 出现次数为 $N_1$ ，B出现次数为 $N_2$ ，那么置信度为 $confidence=\frac{N_2}{N_1}$ 。如果支持度太小，说明该项事务项目出现次数太少，发生的情况有极大地偶然性，不具有统计研究价值；如果置信度太小，说明A和B之间并没有什么关联。只有支持度和置信度都大于给定的标准，才能说明A-> $A\cup B$ 存在关联。
　　关联规则的计算瓶颈主要在寻找支持度符合条件的事务项目集。计算支持度完成后，我们已经获取了所有满足支持度事务项目集出现的次数，因此置信度计算非常简单。符合支持度条件的事务项目集合称为频繁集。频繁集的一个重要特征是：频繁集的所有非空子集都是频繁集。

Apriori算法

　　Apriori算法是找到所有的频繁集的简单算法。频繁集需要按照统一规则排序以便进行比较。我们用归纳描述所有频繁集的特征：
　　

只含有一个元素的事务项目集合，如果出现次数大于阈值，则是一元频繁集
设N元素事务项目集合是N元频繁集，那么其N-1元子集全部是N-1元频繁集。
如果N元频繁集存在且有序，其子集N-1元频繁有序集中必有两个集合，只有最后一位不同，且两个集合的并集为该N元频繁集。因此找到N-1元频繁集之后，可以通过任意两个只有最后一位不同的N-1元频繁集的求并操作，来找到所有的N元候选频繁集。

找到所有的一元频繁集之后，我们从N=2开始构建频繁集，2元频繁候选集由一元频繁集组合构成，然后遍历所有事务，判断2元候选频繁集的支持度是否满足阈值，构建2元频繁集；然后用2元频繁集组合构建3元候选频繁集，判断3元候选集的所有2元子集是否频繁集，然后遍历所有事务计算支持度，找到3元频繁集；依次递推，可以保证N元频繁集的所有非空子集都是频繁集。
　　举例如下。设事务T为：
1,2,3
1,2,4
1,3,4,6
1,2,3,5
1,3,5
2,4,5
1,2,3,4,6
　　一共7组事务，支持度设为最少出现3次，置信度设为5/7。其中1元频繁集为1:6，2:5，3:5，4:4，5:3,冒号后面的数字表示出现次数。用1元频繁集构建2元频繁集为12，13，14，15，23，24，25，34，35，45,其中满足支持度为12:4，13:5，14:3，23:3，24:3。现在构建3元频繁集，其中12、13、14，以及23、24只有最后一位不同，组成3元候选频繁集123,124,234，其中234的子集34不是频繁集，所以排除；满足支持度只有123:3。所有的频繁集为1:6，2:5，3:5，4:4，5:3,12:4，13:5，14:3，23:3，24:3,123:3。
　　然后我们从频繁集中找关联规则。满足置信度条件的有：1->13:5/6，3->13:1，4->14:3/4,12->123:3/4,23->123:1
　　Apriori算法实现简单，但是计算时需要多次遍历事务；验证所有N-1元候选集是否频繁集是个繁琐的过程。当事务数目极大，计算量会无法承受。