Spark下的FP-Growth和Apriori（频繁项集挖掘并行化算法）

最新推荐文章于 2024-08-01 17:39:08 发布

置顶

mangoer_ys

最新推荐文章于 2024-08-01 17:39:08 发布

阅读量1.1w

点赞数 3

分类专栏： Spark 文章标签： spark 数据挖掘 fp-growth apriori

本文链接：https://blog.csdn.net/mangoer_ys/article/details/43370633

版权

本文介绍了频繁项集挖掘的概念，包括频繁项、频繁项集、支持度和可信度。讨论了Apriori算法的原理和缺点，并提出FP-Growth算法作为改进方案，特别适合大规模数据集。在理解FP树结构和构建过程后，文章阐述了如何在Spark环境下高效地实现FP-Growth算法，通过五步MR过程进行并行计算，减少IO操作，提升数据挖掘效率。

摘要由CSDN通过智能技术生成

频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域，其中频繁模式的挖掘是关联挖掘的核心和基础，是产生关联规则挖掘的基础。频繁项集最经典的应用就是超市的购物篮分析。

首先要理解频繁项集中的以下概念。

频繁项：在多个集合中，频繁出现的元素项。

频繁项集：在一系列集合中每项都含有某些相同的元素，这些元素形成一个子集，满足一定阀值就是频繁项集。

K项集：K个频繁项组成的一个集合。

支持度：包含频繁项集（F）的集合的数目。

可信度：频繁项与某项的并集的支持度与频繁项集支持度的比值。

简单来说。频繁项集的挖掘就是将数据集（一般是多行数据，每行数据的第一个元素的交易编号，后面的是物品编号）中出现频率超过支持度的频繁项找出来，而首先找出的单个频繁项的集合就是1-频繁项集。而2-频繁项就是某两个频繁项都同时出现在一行中并且出现频率超过支持度的，那么2-频繁项集就是这些2-频繁项的集合，依次类推，K-频繁项集就是K-频繁项的集合。

目前针对频繁项集的算法，主要有Apriori，FP-Growth和Eclat算法。

Aporiori

首先来了解一下Apriori算法的思路：Apriori算法需要对数据集进行多步处理。第一步，统计所有含一个元素项目集出现的频数，并找出那些不小于最小支持度的项目集即1-频繁项集，从第二部开始循环处理直到再没有频繁项集生成。循环过程是：第K步中，根据K-1步生成的（K-1）维频繁项集产生K候选项目集，然后对数据及进行搜索，得到候选项目集的项集支持度，与最小支持度进行对比，从而得到K-频繁项集。