数据挖掘-09

最新推荐文章于 2023-08-24 18:19:41 发布

画个圈圈诅咒你 yebo

最新推荐文章于 2023-08-24 18:19:41 发布

阅读量175

点赞数

分类专栏：学习笔记文章标签：数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53950248/article/details/126548054

版权

FP-Growth算法

概念

Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。这毫无疑问会成为Apriori算法最大的缺点一频繁项集发现的速度太慢。 FP-growth算法其实是在Apriori算法基础上进行了优化得到的算法，FPGrowth算法则只需扫描原始数据两遍，通过FP-tree数据结构对原始数据进行压缩，效率较高。

FP-growth算法只需要对数据库进行了两次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁，因此FP-growth算法的速度要比Apriori算法快。在小规模数据集上,这不是什么问题，但是当处理大规模数据集时，就会产生很大的区别。

关于FP-growth算法需要注意的两点是:

该算法采用了与Apriori完全不同的方法来发现频繁项集
该算法虽然能更为高效地发现频繁项集，但不能用于发现关联规则。

算法步骤

基于数据集构建FP树
从FP树种递归挖掘频繁项集

FP-tree构建通过两次数据扫描，将原始数据中的事务压缩到一个FP-tree树，该FP-tree类似于前缀树，相同前缀的路径可以共用，从而达到压缩数据的目的。

接着通过FP-tree找出每个item的条件模式基、条件FP-tree，递归的挖掘条件FP-tree得到所有的频繁项集。

算法的主要计算瓶颈在FP-tree的递归挖掘上。

数据结构

最低0.47元/天解锁文章

画个圈圈诅咒你 yebo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-09

Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。这毫无疑问会成为Apriori算法最大的缺点一。FP-growth算法其实是在Apriori算法基础上进行了优化得到的算法，FPGrowth算法则只需扫描原始数据两遍，通过FP-tree数据结构对原始数据进行压缩，效率较高。...
复制链接

扫一扫

专栏目录

画个圈圈诅咒你 yebo CSDN认证博客专家 CSDN认证企业博客

码龄4年

74: 原创

39万+: 周排名

148万+: 总排名

2万+: 访问

: 等级

761: 积分

227: 粉丝

11: 获赞

15: 评论

23: 收藏

私信

关注

热门文章

分类专栏

笔记 71篇
学习 70篇

最新评论

Java数据结构与算法
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8025854, 请多输出高质量博客, 帮助更多的人
数据挖掘-05
Passerby_Wang: 写得也太详细了吧，学到了好多也欢迎博主来我这里指点一二呀
vue技术
画个圈圈诅咒你 yebo: 已经回关啦！！！嘿嘿
vue技术
画个圈圈诅咒你 yebo: 谢谢鼓励呀
vue技术
zhouluobo: 你文章写的这么好，周围的小伙伴儿都知道吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。