数据挖掘十大算法之Apriori算法原理及源码实现

最新推荐文章于 2024-02-07 10:30:00 发布

VIP文章 preeminence1

最新推荐文章于 2024-02-07 10:30:00 发布

阅读量5k

点赞数

分类专栏： Python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Olaking/article/details/42810865

版权

一、基本概念

频繁模式：指频繁地出现在数据集中的模式。例如，频繁地同时出现在交易数据集中的商品（如牛奶和面包）的集合就是频繁项集。

支持度：支持度的公式是support(A->B) = P(A U B)，即A和B同时出现的概率。

置信度：置信度大的公式是confidence ( A-> B ) = P(A | B) = support ( A U B) / support ( A ),揭示的是A出现时，B出现的概率有多大。如果置信度为1，则A、B可进行捆绑销售了

二、Apriori算法的实现原理

频繁项集数据挖掘的一个典型例子就是购物篮分析。该过程通过发现顾客放入购物篮中的商品之间的关联来分析顾客的行为，这样可以帮助零售商指定更好的销售策略。

如何产生规则呢。可以分两步走。

首先找出频繁集(frequent itemset)。所谓频繁集指满足最小支持度或置信度的集合。
其次从频繁集中找出强规则(strong rules)。强规则指既满足最小支持度又满足最小置信度的规则。

这其中有一个定理。即频繁集的子集也一定是频繁集。比如，如果{A,B,C}是一个3项的频繁集，则其子集{A,B},{B,C},{A,C}也一定是2项的频繁集。为方便，可以把含有k项的集合称之为k-itemsets.

这里，我们给出具体的例子：

在算法的第一次迭代中，每个项都是候选1项集L1的成员，算法扫描所以的项，并对出现次数进行计数，然后计算每个项的支持度，若大于等于最小支持度，则存入L中
为了找到频繁二项集L2的集合，采用连接算法，两个L1进行连接，找到二项集，计算支持度，若大于等于最小支持度，则存入L中
依次类推，两个L2连接找到候选三项集，并计算支持度，若大于等于最小支持度，则存入L中
生成强规则
计算置信度，若大于等于最小置

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘十大算法之Apriori算法原理及源码实现

一、基本概念频繁模式：指频繁地出现在数据集中的模式。例如，频繁地同时出现在交易数据集中的商品（如牛奶和面包）的集合就是频繁项集。支持度：支持度的公式是support(A->B) = P(A U B)，即A和B同时出现的概率。置信度：置信度大的公式是confidence ( A-> B ) = P(A | B) = support ( A U B) / suppo
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。