频繁项集算法：Apriori算法的C++实现

最新推荐文章于 2021-05-01 07:45:25 发布

go2sea

最新推荐文章于 2021-05-01 07:45:25 发布

阅读量2.5k

点赞数 3

分类专栏：数据挖掘数据结构与算法文章标签： Apriori 频繁项集数据挖掘关联规则 c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hgqqtql/article/details/44492669

版权

Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

算法原理我一定不如点击打开链接说的明白，就只贴代码好了。

购物篮应该是放在数据库中，我把它写在文件D:/item.txt中。

有一点不同：

代码中用了以下映射：

totalID（项名-->整体编码的映射）

freID（整体编码-->频繁项编码的映射）

freID2item（频繁项编码-->项名的映射）

这样做的目的是，用频繁项编码代替频繁项的项名参与计算，当项名很长时，可以节省空间开销。

另外有以下对Apriori的改进算法，可以进一步节省空间开销：

PCY算法：

利用第一遍扫描中可能有大量空闲内存这一观察结果，设置一个哈希函数，将项哈希到不同桶中。如果某个桶中的计数值不低于支持度阈值，该桶成为频繁桶。那么非频繁桶中的项不可能为频繁项，后续扫描中可以不对其计数以节省空间开销。

多阶段算法：

在PCY的基础上，多做几次哈希，每次扫描中只有一个哈希函数。后续只对这样的项计数：它们在每次哈希中都被哈希到一个频繁桶。

多哈希算法：

同PCY的一样只做一次哈希扫描，但是有有多个哈希函数，。后续只对这样的项计数：每个哈希函数都把它哈希到一个频繁桶。

多阶段多哈希可以结合，即多个阶段，每个阶段多个哈希函数。但貌似阶段数和哈希函数个数要认真斟酌，过多或过少都会导致在在减少候选项（计数项）上效果不高。

最低0.47元/天解锁文章

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
频繁项集算法：Apriori算法的C++实现

Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。算法原理我一定不如点击打开链接说的明白，就只贴代码好了。购物篮应该是放在数据库中，我把它写在文件D:/item.txt中。有一点不同：①代码中用了以下映射：totalID（项名-->整体编码的映射）freID（整体编码-->频繁项编码的映射）
复制链接

扫一扫

专栏目录

go2sea CSDN认证博客专家 CSDN认证企业博客

码龄13年

31: 原创

25万+: 周排名

87万+: 总排名

7万+: 访问

: 等级

1042: 积分

19: 粉丝

25: 获赞

6: 评论

98: 收藏

私信

关注

热门文章

分类专栏

最新评论

快速选择select算法
augenstern986: 写的太好了，刚学到select
约瑟夫循环问题的两种思路
m0_63187409: 映射那部分没懂，大神能不能解释一下p(x)=(x-k-1)%n,但是从后面0～k-1那部分，不是还要加n吗
【google面试题】求1到n的正数中1出现的次数的两种思路及其复杂度分析
夜半鱼: 有个bug,如果最高位为1，如189，当百位上为1时，后面两位的排列组合只能是0~89，不能直接用10的平方来计算，编程时应该再加一个判断最高位是否为1，计算略有不同
装B失败小记一则
普通网友: 挺有趣的哈
证明0.999999...（无限循环）=1 的一种搞siao非主流方法。。。
go2sea 回复 MrLosers: 博客首评，谢~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。