fp算法例题_机器学习（九）—FP-growth算法

最新推荐文章于 2022-05-17 12:31:15 发布

weixin_39595621

最新推荐文章于 2022-05-17 12:31:15 发布

阅读量868

点赞数

文章标签： fp算法例题

本文链接：https://blog.csdn.net/weixin_39595621/article/details/111732172

版权

本文介绍了FP-growth算法，一种比Apriori更高效的发现频繁项集的方法，适用于搜索引擎公司的需求。FP-growth算法只需对数据集扫描两次，通过构建FP树来挖掘频繁项集。文章详细阐述了FP-growth算法的流程，包括FP树的构建和从FP树中挖掘频繁项集，并通过例子展示了如何构建FP树和找到频繁项集。最后，文章提到了在实际新闻网站点击流数据中应用FP-growth算法的例子。

摘要由CSDN通过智能技术生成

本来老师是想让我学Hadoop的，也装了Ubuntu，配置了Hadoop，一时间却不知从何学起，加之自己还是想先看点自己喜欢的算法，学习Hadoop也就暂且搁置了，不过还是想问一下园子里的朋友有什么学习Hadoop好点的资料，求推荐~言归正传，继Apriori算法之后，今天来学习FP-growth算法。

和Apriori算法相比，FP-growth算法只需要对数据库进行两次遍历，从而高效发现频繁项集。对于搜索引擎公司而言，他们需要通过查看互联网上的用词来找出经常在一块出现的词对，因此这些公司就需要能够高效的发现频繁项集的方法，今天要学习的FP-growth算法就可以完成此重任。

一 FP-growth算法

1.概述

FP-growth算法是基于Apriori原理的，通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集，但不能发现数据之间的关联规则。FP-growth算法只需要对数据库进行两次扫描，而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集，所以说Apriori算法是高效的。其中算法发现频繁项集的过程是：

(1)构建FP树；

(2)从FP树中挖掘频繁项集。

2. 构建FP树

FP表示的是频繁模式，其通过链接来连接相似元素，被连起来的元素可以看成是一个链表。将事务数据表中的各个事务对应的数据项按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中，同时在每个结点处记录该结点出现的支持度。

FP-growth算法的流程为：首先构造FP树，然后利用它来挖掘频繁项集。在构造FP树时，需要对数据集扫描两边，第一遍扫描用来统计频率，第二遍扫描至考虑频繁项集。下面举例对FP树加以说明。

假设存在的一个事务数据样例为,构建FP树的步骤如下：

事务ID

事务中的元素

001

r,z,h,j,p

002

z,y,x,w,v,u,t,s

003

004

r,x,n,o,s

005

y,r,x,z,q,t,p

006

y,z,x,e,q,s,t,m

结合Apriori算法中最小支持度的阈值，在此将最小支持度定义为3，结合上表中的数据，那些不满足最小支持度要求的将不会出现在最后的FP树中，据此构建FP树，并采用一个头指针表来指向给定类型的第一个实例，快速访问FP树中的所有元素，构建的带头指针的FP树如下:

最低0.47元/天解锁文章

weixin_39595621

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
fp算法例题_机器学习（九）—FP-growth算法

本来老师是想让我学Hadoop的，也装了Ubuntu，配置了Hadoop，一时间却不知从何学起，加之自己还是想先看点自己喜欢的算法，学习Hadoop也就暂且搁置了，不过还是想问一下园子里的朋友有什么学习Hadoop好点的资料，求推荐~言归正传，继Apriori算法之后，今天来学习FP-growth算法。和Apriori算法相比，FP-growth算法只需要对数据库进行两次遍历，从而高效发现频繁项集...
复制链接

扫一扫