关联分析1

小白又来打卡了,数据挖掘课上学到了关联分析。先整理个概念吧,之前本科时期没有接触过这方面的内容,只知道纸尿裤和啤酒这个案例,但具体的分析方法并不了解orz。今天的小qq同样是为了毕业不失业而奋斗?

本篇是根据《数据挖掘导论》[Pang-Ning Tan,Michael Steinbach,Vipin Kumar著]还有其他大佬们写的博文整理的。如果有想要这本书的中英文电子版的可以给我留言,我邮箱发给你们。

目录

基本概念

发现频繁项集

摘录链接


基本概念

1、二元表示:如下表中的数据,每个TID所在的一行就是一个事务,面包、牛奶对应的每一列就是一个项。项可以用二元变量表示,若项在事务中出现,则值为1,否则,为0。用0,1表示的二元变量是非对称的二元变量,它默认了项在事务中出现比不出现更重要。然而对于商品的数量和价格,这种非类别型数据,用非二元数据的方式表示。

2、项集:I= \left \{ i_{1},i_{2},...,i_{d} \right \}是所有项(也就是列)的集合,T= \left \{ t_{1},t_{2},...,t_{N} \right \}是所有事务(也就是行)的集合。每个事务 t 包含的项集都是 I 的子集[事务列对应的那一行]。在关联分析中,包含0个或者多个的项的集合称为项集。 如果一个项集包含k个项,那么就称为k-项集。空集是指不包含任何项的项集。项集 X 是事务 t 的子集,则事务 t 包括项集X[ 列t 包括对应的那一行的项集X,也包括X的子集]。比如TID=2的事务,包括{尿布、啤酒},但不包括{鸡蛋,可乐}。

3、支持度计数:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值