数据挖掘频繁模式与关联规则

最新推荐文章于 2024-06-07 09:54:16 发布

Viende

最新推荐文章于 2024-06-07 09:54:16 发布

阅读量1k

点赞数 2

分类专栏： python 文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46821706/article/details/123943363

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关联规则：面包和尿布一起促销的时候，卖出率更高。这就是一条关联规则。
因为面包+尿布被一起购买的这个“模式”频繁出现，所以叫做“频繁模式”：在数据集中经常出现的模式。
频繁数据项集和关联规则挖掘：找到数据间的内在关联。

频繁模式为什么重要？
这是一种数据预处理，为后续采用数据挖掘的手段/工具提供方法。

概念

一家商铺的一日交易信息。
itemset：一次交易
support count:出现频率
relative support: X出现次数/交易总数
如果X的support超过阈值（minsup threshold），就称为“频繁”（Frequent）

关联规则：(X->y)
support：一个交易包含x（面包）∪Y（尿布）的次数。
confidence：条件概率 P（X|Y）=(分母上的每个交易里面含有面包的交易数)/买了尿布的交易数
与P（Y|x）。

挖掘算法：apriori（低效率）

频繁项集的子集一定也是频繁的
{尿布，面包，坚果}频繁，则{尿布，面包}i一定也频繁

Apriori算法

扫DB，获取1-itemset（一元频繁项集，其实就是每个商品的出现次数都要统计出来（候选集），起步效率就很低=》根据supmin挑出正式集。=》两两拼凑，生成2长度的候选集；再根据supmin挑出长为2的正式集=》再两两拼凑（去重）生成长为3的候选集…
从长为k的频繁项集生成长为k+1的候补集（根据supmin threshold筛选）
从DB中测试候补集是否频繁
当没有新的频繁项/候补集生成时终止
结果：这k个正式集做∪

优点：简单
缺点：效率低（数据量大，5小时起步）

挖掘代码：

FPTree算法

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。