频繁项集的产生及经典算法

最新推荐文章于 2023-09-13 16:10:47 发布

爱学习的小肥猪

最新推荐文章于 2023-09-13 16:10:47 发布

阅读量5.1k

点赞数 4

本文链接：https://blog.csdn.net/heima201907/article/details/103457696

版权

前言：

　　关联规则是数据挖掘中最活跃的研究方法之一，是指搜索业务系统中的所有细节或事务，找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则，以获得存在于数据库中的不为人知的或不能确定的信息，它侧重于确定数据中不同领域之间的联系，也是在无指导学习系统中挖掘本地模式的最普通形式。

　　一般来说，关联规则挖掘是指从一个大型的数据集（Dataset）发现有趣的关联（Association）或相关关系（Correlation），即从数据集中识别出频繁出现的属性值集（Sets of Attribute Values），也称为频繁项集（Frequent Itemsets，频繁集），然后利用这些频繁项集创建描述关联关系的规则的过程。

关联规则挖掘问题:

　　发现频繁项集:现所有的频繁项集是形成关联规则的基础。通过用户给定的最小支持度，寻找所有支持度大于或等于Minsupport的频繁项集。

　　生成关联规则:通过用户给定的最小可信度，在每个最大频繁项集中，寻找可信度不小于Minconfidence的关联规则.

　　如何迅速高效地发现所有频繁项集，是关联规则挖掘的核心问题，也是衡量关联规则挖掘算法效率的重要标准。

　　经典的挖掘完全频繁项集方法是查找频繁项集集合的全集。其中包括基于广度优先算法搜索的关联规则算法--Apriori算法(通过多次迭代找出所有的频繁项集)及DHP(Direct Hashing Pruning) 算法等改进算法；基于深度优先搜索策略的FP-Growth算法，ECLAT算法，COFI算法等，我将介绍两种经典算法--Apriori算法和FP-Growth算法。

1.Apriori算法

　　Apriori算法基于频繁项集性质的先验知识，使用由下至上逐层搜索的迭代方法，即从频繁1项集开始，采用频繁k项集搜索频繁k+1项集，直到不能找到包含更多项的频繁项集为止。

　　Apriori算法由以下步骤组成，其中的核心步骤是连接步和剪枝步：

Apriori算法由以下步骤组成，其中的核心步骤是连接步和剪枝步

　　（1）生成频繁1项集L1。

　　（2）连接步：为了寻找频繁k项集，首先生成一个潜在频繁k项集构成的候选项集，中的每一个项集是由两个只有一项不同的属于的频繁项集做k-2连接运算得到的。连接方法为：设l1和l2是中的项集，即，如果l1和l2中的前k-2个元素相同，则称l1和l2是可连接的，用表示。假定事务数据库中的项均按照字典顺序排列，li[j]表示li中的第j项，则连接l1和l2的结果项集是。

　　（3）剪枝步：连接步生成的Ck是Lk的超集，包含所有的频繁项集Lk，同时也可能包含一些非频繁项集。可以利用前述先验知识（定理3.2），进行剪枝以压缩数据规模。比如，如果候选k项集Ck的k-1项子集不在Lk-1中，那么该子集不可能是频繁项集，可以直接删除。

　　（4）生成频繁k项集Lk：扫描事务数据库D，计算Ck中每个项集的支持度，去除不满足最小支持度的项集，得到频繁k项集Lk。

　　（5）重复步骤（2）～（4），直到不能产生新的频繁项集的集合为止，算法中止。

Apriori算法是一种基于水平数据分布的、宽度优先的算法，由于使用了层次搜索策略和剪枝技术，使得Apriori算法在挖掘频繁模式时具有较高的效率。但是，Apriori算法也有两个致命的性能瓶颈：

　　（1）Apriori算法是一个多趟搜索算法，每次搜索都要扫描事务数据库，I/O开销巨大。对于候选k项集Ck来说，必须扫描其中的每个元素以确认是否加入频繁k项集Lk，若候选k项集Ck中包含n项，则至少需要扫描事务数据库n次。

　　（2）可能产生庞大的候选项集。由于针对频繁项集Lk-1的k-2连接运算，由Lk-1 产生的候选k项集Ck是呈指数增长的，如此海量的候选集对于计算机的运算时间和存储空间都是巨大的挑战。

交易	商品代码
T100

最低0.47元/天解锁文章

爱学习的小肥猪

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
频繁项集的产生及经典算法

前言：　　关联规则是数据挖掘中最活跃的研究方法之一，是指搜索业务系统中的所有细节或事务，找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则，以获得存在于数据库中的不为人知的或不能确定的信息，它侧重于确定数据中不同领域之间的联系，也是在无指导学习系统中挖掘本地模式的最普通形式。　　一般来说，关联规则挖掘是指从一个大型的数据集（Dataset）发现有趣的关联（Associ...
复制链接

扫一扫