python apriori算法 sklearn_Apriori算法原理总结

最新推荐文章于 2021-01-13 18:11:52 发布

weixin_39939668

最新推荐文章于 2021-01-13 18:11:52 发布

阅读量545

点赞数

文章标签： python apriori算法 sklearn

本文链接：https://blog.csdn.net/weixin_39939668/article/details/111763163

版权

本文介绍了Apriori算法的基本原理，包括频繁项集的评估标准如支持度、置信度和提升度。通过具体实例展示了Apriori算法的迭代过程，总结了算法流程，并指出其在大数据集上的效率问题。虽然scikit-learn目前未提供频繁集挖掘功能，但Apriori算法仍然是理解和研究关联规则挖掘的基础。

摘要由CSDN通过智能技术生成

Apriori算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合，找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集，或者电商的网购数据集中，如果我们找到了频繁出现的数据集，那么对于超市，我们可以优化产品的位置摆放，对于电商，我们可以优化商品所在的仓库位置，达到节约成本，增加经济效益的目的。下面我们就对Apriori算法做一个总结。

1. 频繁项集的评估标准

什么样的数据才是频繁项集呢？也许你会说，这还不简单，肉眼一扫，一起出现次数多的数据集就是频繁项集吗！的确，这也没有说错，但是有两个问题，第一是当数据量非常大的时候，我们没法直接肉眼发现频繁项集，这催生了关联规则挖掘的算法，比如Apriori, PrefixSpan, CBA。第二是我们缺乏一个频繁项集的标准。比如10条记录，里面A和B同时出现了三次，那么我们能不能说A和B一起构成频繁项集呢？因此我们需要一个评估频繁项集的标准。

常用的频繁项集的评估标准有支持度,置信度和提升度三个。

支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率。如果我们有两个想分析关联性的数据X和Y，则对应的支持度为:$$Support(X,Y) = P(XY) = \frac{number(XY)}{num(All Samples)}$$

以此类推，如果我们有三个想分析关联性的数据X，Y和Z，则对应的支持度为:$$Support(X,Y,Z) = P(XYZ) = \frac{number(XYZ)}{num(All Samples)}$$

一般来说，

最低0.47元/天解锁文章

weixin_39939668

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python apriori算法 sklearn_Apriori算法原理总结

Apriori算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合，找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集，或者电商的网购数据集中，如果我们找到了频繁出现的数据集，那么对于超市，我们可以优化产品的位置摆放，对于电商，我们可以优化商品所在的仓库位置，达到节约成本，增加经济效益的目的。下面我们就对Apriori算法做一个总结。1.频繁项集的评估标...
复制链接

扫一扫