数据关联分析 association analysis (Aprior算法，python代码）

最新推荐文章于 2024-04-03 22:46:22 发布

刚搬完砖

最新推荐文章于 2024-04-03 22:46:22 发布

阅读量2.8k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011467621/article/details/47971925

版权

本文介绍了关联分析中的Apriori算法，用于从购物篮数据中找出频繁项集和规则。通过支持度和置信度衡量，算法遵循先验原理，通过迭代生成候选项集并计算支持度。Python代码展示了算法的实现过程。

摘要由CSDN通过智能技术生成

1基本概念

购物篮事务（market basket transaction),如下表，表中每一行对应一个事务，包含唯一标识TID,和购买的商品集合。本文介绍一种成为关联分析(association analysis)的方法，这种方法，可以从下表可以提取出，{尿布}—>牛奶.

两个关键问题：1大型数据计算量很大。2发现的某种模式可能是虚假，偶然发生的。

2问题定义

把数据可以转换为如下表的二元表示，非二元不在本文讨论范围

项集

项集的支持度计数：

关联规则：

我们要发现，满足最小支持度与最小置信度的规则。

l 频繁项集(frequent itemset):发现满足最小支持度阈值的所有项集，这些项集成为频繁项集。

l 规则的产生：从上一步发现的频繁项集中提取所有高置信度的规则，这些规则成为强规则(strong rule)

频繁项集的产生

穷举法：

利用格结构（lattice structure）产生所有候选项集（candidate itemset）.

利用穷举法，计算每个候选项集的支持度计数。但是该方法计算量太大。

先验(apriori)原理：

如果一个项集是频繁的，则的所有子集一定是频繁的。若某项集是非频繁的，则其所有的超级也一定是非频繁的。

如下图，若{c,d,e}是频繁项集，则它的子集一定是频繁项集。

项集{a,b}是非频繁的，则其所有的超级也一定是非频繁的,如下图。

Aprior算法的频繁项集产生

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

刚搬完砖 CSDN认证博客专家 CSDN认证企业博客

码龄11年

49: 原创

7万+: 周排名

64万+: 总排名

31万+: 访问

: 等级

2466: 积分

112: 粉丝

80: 获赞

31: 评论

196: 收藏

私信

关注

热门文章

分类专栏

机器学习 18篇
数据挖掘 9篇
python 3篇
统计学 2篇
推荐系统 1篇
kaggle 1篇
笔记 2篇
思考 1篇
代码 2篇
自然语言处理 2篇

最新评论

Permutation Test 置换检验(转）
hypergq: 我也有上面同样的疑问，我用两组真实的数据得到了一个真实的差，我再随机打乱他们得到更多的随机差，这些随机的差有什么意义呢？并不能反应我的数据的真实情况啊？即使我的真实差不在随机差的前5%，但他是真实结果得到的啊，有没有人能解释一下
在pytorch中load超大训练数据
aptx4869ldz: 请问博主思路一中内存依然不断上升的原因找到了吗？是为什么呢？我也遇到了同样的问题，求解，谢谢！
Dummy variable (变量dummy化）
沈悠闲: 通俗易懂
Permutation Test 置换检验(转）
萝卜丝皮尔: 一般来说，P值小于0.05会拒绝原假设。至于文章里的均值差异，是文章定义的检验统计量，也可以定义为两组数据的中位数差值作为检验统计量等的。个人乱说的~
Permutation Test 置换检验(转）
萝卜丝皮尔: 校正之后的p值偏大，我猜，这样就可以更充分地拒绝原假设了（如果能够拒绝的话）。因为被调大的P值还小于显著性水平，那么真实数据构造出来的P值更小于显著性水平。个人乱猜的~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。