大数据之数据挖掘理论笔记关联规则与Apriori算法

最新推荐文章于 2024-06-17 10:35:45 发布

houxiaoqin

最新推荐文章于 2024-06-17 10:35:45 发布

阅读量2.1k

点赞数

分类专栏：大数据算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/houxiaoqin/article/details/48783997

版权

本文介绍了大数据中的数据挖掘理论，重点讲解了Apriori算法，包括其基本概念、关联规则挖掘过程、Apriori算法原理、Apriori property及其在实际中的应用。通过实例和伪代码阐述了Apriori算法如何找出频繁项集并生成强关联规则，还讨论了关联规则的概率论解读和评估指标。

摘要由CSDN通过智能技术生成

大数据之数据挖掘理论一 Apriori算法

1. 引例——购物篮分析
策略一：经常同时购买的商品临近摆放，如啤酒尿布；
策略二：强关联商品可以摆放在商品的两端，可能诱发顾客一路挑选其他商品，如硬件和软件。

2. 基本概念
频繁模式：频繁地出现在数据集中的模式（如项集、子序列、子结构）。
频繁项集：如频繁地出现在商品交易数据集中的商品（如牛奶、面包）的集合。
关联规则：computer =>antivirus_software [support=2%; confidence=60%]
支持度：分析的所有事务中有2%显示计算机和杀毒软件被同时购买；
置信度：购买computer的60%顾客买了杀毒软件；

3. 公式

support(A=>B) = P(A∪B)

confidence（A=>B）=P（B|A）= support(A∪B) / support (A) = support_count (A∪B) / support_count(A)

4. 关联规则挖掘过程：
(1) 找出所有频繁项集；（2）由频繁项集产生【强关联规则：必须满足最小支持度和最小置信度】。

5. 布尔关联规则挖掘频繁项集——Apriori算法

1）Apriori算法原理：采用逐层搜索迭代法，用k项集探索k+1项集。

2）Apriori算法过程：通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合，记为L1。利用L1找出频繁2项集L2，利用L2找出频繁3项集L3...

上述过程，每找一次需要完整扫描数据库一次。要压缩搜索空间，提高频繁项集逐层产生效率——Apriori property先验性质。

3）Apriori property理论：频繁项集的所有非空子集一定是频繁；任何非频繁的k项集都不是频繁k+1项集的子集（理解：非频繁项集与任何一项取并集，结果都是非频繁的）。

4）Apriori property应用：连接步+剪枝步

连接步：将Lk与Lk自身连接产生候选k+1项集的集合C（k+1）。集合C（k+1）的成员有频繁的也有不频繁的，但所有频繁k+1项集都包含在集合中。

剪枝步：扫描数据库，确定C（k+1）中每个候选项集的计数，根据计数值不小于最小支持度计数的所有候选项集都是频繁的确定L(k+1)。在此引入Apriori property对C（k+1）进行压缩处理，即认为不在Lk集合的项构成连接项也不会是频繁的，故可将其直接从C（k+1）中删除。

5）Apriori算法举例

http://blog.csdn.net/lizhengnanhua/article/details/9061887 （最小支持度>=50%）该博主举例简单明确&#x

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。