关联分析——基本概念以及常用术语

关联分析通过挖掘数据中项之间的关系,揭示潜在的购买模式,如啤酒与尿布的故事所示。本文介绍了关联分析的核心术语,如项、项集、支持度和置信度,并解释了频繁项集、闭合频繁项集的概念。同时,讨论了如何发现关联规则,包括置信度计算和多层次关联规则分析,以及兴趣度度量如提升度(lift)和余弦相似度,以避免误导性的规则。
摘要由CSDN通过智能技术生成

想必大家都听说过啤酒和尿布的故事,这种烂大街的例子很好的反映出关联分析的本质,这里简要提提这个所谓的啤酒和尿布。

有好事人儿发现周末的夜晚,家庭妇男为了和球赛度过一个美丽的夜晚,需要啤酒相伴,这个时候,一家之主兼政委主席——你的妻子却还需要照顾孩子,“想看球赛没问题,买啤酒顺便买尿布”。

对购物篮进行分析之后,惊喜的发现还真有这么回事儿。

这例子孰真孰假不得知,但起码它反映出了数据分析的价值之一——将两个毫不相干的事物建议起了一个关联规则。

  • 首先,先介绍一些相关术语:

1)项:在关联分析中被研究的对象,也就是上述中的啤酒、尿布

2)项集:这些对象所组成的一个集合,{啤酒,尿布}

3)k项集:{啤酒,尿布}就是一个二项集

4)频数:一个项集出现的次数

5)支持度:一个项集出现的频率

举个栗子:

TID

Items bought

10

A, B, D

20

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值