python关联规则挖掘可视化_《Python数据挖掘》笔记(二)关联规则挖掘

本文是《Python数据挖掘》笔记的第二部分,介绍了频繁项集的概念,包括都市传奇“尿布与啤酒”的例子,以及支持度、置信度、关联规则等基础知识。文章还探讨了Apriori算法寻找频繁项集的过程,并举例说明如何在软件项目标签中应用关联规则。此外,笔记还提到了附加值评估规则的重要性。
摘要由CSDN通过智能技术生成

Python数据挖掘:概念、方法与实践。Megan Squire著,姚军译,机械工业出版社,2017年。

笔记中有些内容直接引用原书。

================================================================

2.1 什么是频繁项集

频繁项集是数据集中出现频率较高的项集。频繁项集挖掘的目的是发现一组交易中共同出现的有趣项目组合。

2.1.1 都市传奇“尿布与啤酒”

作者怀疑故事的真实性。

2.1.2 频繁项集挖掘基础知识

三个概念:市场、篮子、商品。

需要满足的假设条件:

a. 商品和篮子之间是多对多的关系。

b. 不考虑商品的数量。

c. 某件商品可能不出现在任何一个篮子里,但是任何篮子都包含至少一件商品。

d. 篮子中商品的顺序无关紧要。

有两个项目的项集称为2-项集或配对,有3个项目的项集称为3-项集(或者三元组),以此类推。

2.2 迈向关联规则

2.2.1 支持度

支持度表示项集出现的频率。最小支持阈值决定了频繁项集的评判标准。

2-项集的支持度通常用概率表示:

support(X->Y) = P(XuY)

2.2.2 置信度

confidence(X->Y) = P(X|Y) = support(XuY) / support(X)

2.2.3 关联规则

从支持度和置信度,可以建立频繁项集中项目之间的关联规则。例如:香草威化->香蕉,奶油。[支持度=1%, 置信度=40%]。规则可以读作:在所有篮子中,有1%包含香草威化、香蕉和生奶油的组合;在购买香草威化的客户中,有40%同时购买了香蕉和生奶油。

规则左侧是先导,右侧是后继。

2.2.4 包含数据的示例

2.2.5 附加值——修复计划中的漏洞

避免有些商品自身的表现好于作为关联规则后继时的表现。通过附加值考虑其关联的合理性。

附加值 = 规则置信度 – 右侧的支持度

如果附加值是大的正数,那么规则是好的、有用的。如果附加值接近于0,则这条规则可能是正确的,但是没太大用处。如果附加值是大的负数,那么规则中的商品实际上是负相关的,这时单独使用表现会更好。

2.2.6 寻找频繁项集的方法

快速寻找频繁项集的一条重要原则:向上闭包属性。向上闭包指的是,只有在项集的所有项目都频繁出现时,该项集才是频繁项集。

Apriori算法:

a. 设置一个支持阈值

b. 构建一个1-项集列表,根据支持度得到SingletonList列表

c. 从SingletonList中选择项集构建DoubletonList

d. 从DoubletonList中选择项集构建TripletionList。

e. 重复d步,从前面构建的列表中的单项生成n-项集,直到频繁集用完。

2.3 项目——发现软件项目标签中的关联规则

2.4 小结

BrianZhang:《Python数据挖掘》笔记(一)扩展你的数据挖掘工具箱​zhuanlan.zhihu.comBrianZhang:《Python数据挖掘》笔记(三)实体匹配​zhuanlan.zhihu.comBrianZhang:《Python数据挖掘》笔记(四) 网络分析​zhuanlan.zhihu.comBrianZhang:《Python数据挖掘》笔记(五) 文本情绪分析​zhuanlan.zhihu.comBrianZhang:《Python数据挖掘》笔记(六) 文本中的命名实体识别​zhuanlan.zhihu.comBrianZhang:《Python数据挖掘》笔记(七) 自动化文本摘要​zhuanlan.zhihu.comBrianZhang:《Python数据挖掘》笔记(八)文本中的主题建模​zhuanlan.zhihu.comBrianZhang:《Python数据挖掘》笔记(九)挖掘数据异常​zhuanlan.zhihu.com软件开发之路​zhuanlan.zhihu.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值