数据挖掘——Apriori算法

最新推荐文章于 2021-12-04 18:06:21 发布

编程妹阮豆子_D

最新推荐文章于 2021-12-04 18:06:21 发布

阅读量670

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010443572/article/details/39967543

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

简介

Apriori是关联分析中核心的算法。其名字是因为算法基于先验知识(prior knowledge)。根据k-1次找到的频繁项来生成k次的频繁项。

重要性质

任一频繁项集的所有非空子集也必须是频繁的。

步骤：连接 + 剪枝

特点：

1）只能处理分类变量，无法处理数值型变量；
2）数据存储可以是交易数据格式（事务表），或者是事实表方式（表格数据）；

缺点：

(1)在每一步产生侯选项目集时循环产生的组合过多，没有排除不应该参与组合的元素;
(2)每次计算项集的支持度时，都对数据库D中的全部记录进行了一遍扫描比较，如果是一个大型的数据库的话，这种扫描比较会大大增加计算机系统的I/O开销。而这种代价是随着数据库的记录的增加呈现出几何级数的增加。因此人们开始寻求更好性能的算法。

改进办法：

方法1：基于hash表的项集计数
将每个项集通过相应的hash函数映射到hash表中的不同的桶中，这样可以通过将桶中的项集技术跟最小支持计数相比较先淘汰一部分项集。

方法2：事务压缩（压缩进一步迭代的事务数）
不包含任何k-项集的事务不可能包含任何(k+1)-项集，这种事务在下一步的计算中可以加上标记或删除

方法3：划分
挖掘频繁项集只需要两次数据扫描
D中的任何频繁项集必须作为局部频繁项集至少出现在一个部分中。
第一次扫描：将数据划分为多个部分并找到局部频繁项集
第二次扫描：评估每个候选项集的实际支持度，以确定全局频繁项集。

方法4：选样（在给定数据的一个子集挖掘）
基本思想：选择原始数据的一个样本，在这个样本上用Apriori算法挖掘频繁模式
通过牺牲精确度来减少算法开销，为了提高效率，样本大小应该以可以放在内存中为宜，可以适当降低最小支持度来减少遗漏的频繁模式
可以通过一次全局扫描来验证从样本中发现的模式
可以通过第二此全局扫描来找到遗漏的模式

方法5：动态项集计数
在扫描的不同点添加候选项集，这样，如果一个候选项集已经满足最少支持度，则在可以直接将它添加到频繁项集，而不必在这次扫描的以后对比中继续计算。

编程妹阮豆子_D

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。