关联规则——Apriori算法

最新推荐文章于 2025-05-02 07:26:29 发布

NFTY19

最新推荐文章于 2025-05-02 07:26:29 发布

阅读量6.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：数学建模算法文章标签：算法数据挖掘

本文链接：https://blog.csdn.net/nfty19/article/details/121719417

算法同时被 2 个专栏收录

6 篇文章

订阅专栏

数学建模

4 篇文章

订阅专栏

Apriori算法是一种经典的数据挖掘算法，用于发现数据库中不同项之间的关联规则。它通过寻找频繁项集并生成强关联规则来揭示事务中的联系。算法包括连接和剪枝两个步骤，以减少候选集的大小。然而，当频繁项集众多或最小支持度很低时，Apriori算法可能效率低下。关联规则中的支持度和置信度是关键指标，用于衡量规则的重要性。此外，还有闭频繁集和极大频繁集的概念，以及稀有模式和负模式的研究。FP-growth等算法则避免了Apriori的候选集生成问题，提高了效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关联规则——Apriori算法

简介

关联规则分析也成为购物篮分析，最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如一个超市的经理想要更多地了解顾客的购物习惯，比如“哪组商品可能会在一次购物中同时购买？”或者“某顾客购买了个人电脑，那该顾客三个月后购买数码相机的概率有多大？”他可能会发现如果购买了面包的顾客同时非常有可能会购买牛奶，这就导出了一条关联规则“面包=>牛奶”，其中面包称为规则的前项，而牛奶称为后项。通过对面包降低售价进行促销，而适当提高牛奶的售价，关联销售出的牛奶就有可能增加超市整体的利润。

基本概念

项集：项的集合。例：集合{computer，printer}就是一个2项集。

支持度：表示在所有的事务中同时出现该项集的概率。（项集A的支持度计数是事务数据集中包含项集 A 的事务个数。若已知项集的支持度计数，则规则A => B的支持度和置信度很容易从所有事务计数、项集A和项集A∪B的支持度计数推出。）

频繁项集：在一次具体的数据分析任务中，我们可以自行设定最小支持度阈值，则如果项集A的支持度满足预定义中的最小支持度阈值，即A项集为频繁项集（若A包含k个项，则也称A为k频繁项集）。

关联规则：指有关联的规则。例如上面的例子中 “面包=>牛奶” 就是一条关联规则。其侧面揭示了事务中的某种联系。

置信度：表示的是关联规则的前件出现时后件是否会出现，若出现，后件出现的概率有多大。对于A=>B而言，置信度表示A出现时B同时出现的概率。

项集A、B同时发生的概率称为关联规则的支持度：
$S u p p o r t （ A = > B ） = P （ A \cup B ）$

项集A发生，则项集B也同时发生的概率为关联规则的置信度：
$C o n f i d e n c e （ A = > B ） = P （ B ∣ A ）$

强关联规则：若关联规则A => B满足如下，则称该关联规则是强关联规则，否则为弱关联规则。
$S u p p o r t （ A = > B ） \geq m i n S u p$
$C o n f i d e n c e （ A = > B ） \geq m i n C o n f$

闭项集和极大频繁项集

超项集：若S1是S2的超项集，则S2是S1的子集。

闭频繁集：对于项集X，如果不存在真超项集Y使得Y与X在事务数据库D中有相同的支持度，则称项集X在数据集D中是闭的，如果X在S中是闭的和频繁的，就称X是S中的闭频繁项集。（简单的来说，就是项集X所有父级的支持度都小于本身的支持度，则是闭的）

极大频繁集：如果X是频繁的，并且不存在超项集Y使得 X∈Y 并且Y在S中是频繁的。则称X是S中的极大频繁项集（就是闭频繁项集的极限情况，即刚好大于支持度的闭频繁项集）

频繁项集的关系

极大频繁项集＜闭频繁项集＜频繁项集

稀有模式和负模式

稀有模式：又称为非频繁模式。给定一个用户指定的正常数 δ，其满足(0<δ<1)，则该类模式的最小支持度阈值通常定义为 Rmin_sup= δ *min_sup，其中min_sup为频繁项集的最小支持度阈值，若一个模式其支持度低于（或远低于）该最小支持度阈值，这个模式就称为稀有模式。

负模式：在数据集D中，某数据项集X的出现会减少另一数据项集Y的出现，甚至使得Y不出现，这一类模式称为负模式，由此产生的关联规则称为负关联规则。例如在超市商品销售中，分别购买可口可乐和百事可乐的支持度都非常高，但是二者存在很强的负相关性，因此它们可以组成负数据项集，由此而生成的关联规则称为负关联规则。

Apriori算法

Apriori算法是第一个关联规则挖掘算法，也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接（类矩阵运算）与剪枝（去掉那些没必要的中间结果）组成。

核心思想

频繁项集的任何非空子集也一定是频繁的，也就是说一个项集是非频繁的，那么它的所有超集也一定是非频繁的

首先通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。然后使用频繁1找出长度为2的候选项集，再清除掉那些有子集不是频繁项集的候选集，对剩下的候选集扫描数据库，计算它们的支持度，筛选出满足条件的频繁2项集，如此下去，直到不能再找到频繁K项集。然后用得到的频繁项集生成关联规则。

（用频繁的(k – 1)-项集生成候选的频繁 k-项集，用数据库扫描和模式匹配计算候选集的支持度）

步骤

找出所有频繁项集：这些项集的每一个出现的频繁性至少与预定义的最小支持度一样
由频繁项集产生强关联规则：这些规则必须满足最小支持度、最小置信度和相关度

候选集生成步骤

连接: 用 Lk-1自连接得到候选k项集Ck，连接时只能将只差最后一个项目不同的项集进行连接

修剪: 一个候选k项集Ck，如果它的一个k-1项集（它的子集）不是频繁的，那它本身也不可能是频繁的。

第一步是连接步，就是将k-1频繁集两两自连接得到最初的k候选集，这里自连接的频繁集必须满足两者只有最后一个项目不同的才能自连接。第二步是修剪步，就是将上面得到的最初k候选集，分别去计算每个k候选集它的每一个k-1子集是否为频繁的，如果有一个不是，那么这个k候选集就不可能成为频繁集，将它从候选集中删除。