读书笔记1——Apriori算法详解

最新推荐文章于 2022-04-15 16:11:13 发布

rocky_zheng

最新推荐文章于 2022-04-15 16:11:13 发布

阅读量646

点赞数

分类专栏：机器学习文章标签：机器学习算法 python 数据挖掘读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_16233463/article/details/37034765

版权

本文是关于Apriori算法的读书笔记，主要讲解了算法的作用、项集概念、支持度计算、频繁项集定义及先验性质。通过伪代码展示了算法流程，并探讨了在大数据量时的优化策略，包括事务压缩和数据划分等。

摘要由CSDN通过智能技术生成

平时看书就是自认为看懂就算，结果在过一段时间，或是面试的时候别人问我貌似什么都不记得。所以如果能把自己所看的，写下来给比人讲清楚我想是非常重要的。开始第一个简单的机器学习算法的解释。参考资料主要是《数据挖掘概率与技术》第三版。

Apriori算法的主要作用是寻找频繁项集。进一步的是根据频繁项集去产生关联规则。在实际应用中类似啤酒和尿布这种故事就可以使用这种算法去解决。

常用的概念

项集：就是项的集合。如果在输入时数据师为了发现哪些商品被同时购买，项集就是商品的集合。
支持度：频繁项集的支持度通常用项集在输入数据中出现的次数来计算。在啤机和尿布中就是啤酒喝尿布同时被人购买的次数。当然也可以用出现的概率来计算，这个就是出现的次数除上一个样本总是。
频繁项集：支持度计数>min支持度计数的项集
先验性质：频繁项集的所有非空子集都是频繁的。这个性质是Aprori算法关键的部分。要理解Apriori，首先要搞清楚这个性质的意思，至于为什么成立时很简单的逻辑。还如果购买啤酒的次数少于最小支持度，所有和啤酒一起购买的商品组合的次数不会高于啤酒的购买次数，所以任何和啤酒组合的商品不会是频繁的。

伪代码

输入数据集D，min_support（最小支持度计数）<

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
读书笔记1——Apriori算法详解

平时看书就是自认为看懂就算，结果在过一段shijian
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。