闭频繁项集的挖掘——Closet算法

最新推荐文章于 2023-10-19 23:02:08 发布

vjgghkh

最新推荐文章于 2023-10-19 23:02:08 发布

阅读量5.6k

点赞数 4

分类专栏：数据挖掘 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014473918/article/details/79592595

版权

Closet算法有很大一部分涉及到了FP-Growth算法，但是FP-Growth什么的大牛们都写了很多就不多赘述了吧。

话不多说直接上方法。

首先，对事务数据库进行扫描，得到一个根据项的支持度从大到小排序的项集合F_list，将不频繁的项删除。

然后根据F_list对数据集进行划分对每一个划分出来的数据集递归的进行闭项集的挖掘，直到划分出的子集中F_list为空。

举个例子具体说明CLOSET算法的具体流程:

事物的数据集如图所示，假设支持度的阈值为2。

第一遍扫描数据库，得到了一个F_list: <c:4,e:4,f:4,a:3,d:2> 。将所有事务中的项目集按照F_list中的顺序进行排序

然后，将数据集进行划分：

包含有d的模式集

包含a不包含d的模式集

包含f不包含a和d的模式集…

得到的是一些投影数据库，比如d的投影数据库如图所示，d的投影数据库，就是筛选出所有包含d的事务中，只保留所有在F_list中排在d之前的项得到的事务集，形成了一个新的事务集，就是d的投影数据库。

其它的投影数据库以此类推，保证得到的划分是包含d的模式集，包含a

最低0.47元/天解锁文章

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
3
评论
闭频繁项集的挖掘——Closet算法

Closet算法有很大一部分涉及到了FP-Growth算法，但是FP-Growth什么的大牛们都写了很多就不多赘述了吧。话不多说直接上方法。首先，对事务数据库进行扫描，得到一个根据项的支持度从大到小排序的项集合F_list，将不频繁的项删除。然后根据F_list对数据集进行划分对每一个划分出来的数据集递归的进行闭项集的挖掘，直到划分出的子集中F_list为空。举个例子具体说明CLOS...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。