小白又来打卡了,数据挖掘课上学到了关联分析。先整理个概念吧,之前本科时期没有接触过这方面的内容,只知道纸尿裤和啤酒这个案例,但具体的分析方法并不了解orz。今天的小qq同样是为了毕业不失业而奋斗?
本篇是根据《数据挖掘导论》[Pang-Ning Tan,Michael Steinbach,Vipin Kumar著]还有其他大佬们写的博文整理的。如果有想要这本书的中英文电子版的可以给我留言,我邮箱发给你们。
目录
基本概念
1、二元表示:如下表中的数据,每个TID所在的一行就是一个事务,面包、牛奶对应的每一列就是一个项。项可以用二元变量表示,若项在事务中出现,则值为1,否则,为0。用0,1表示的二元变量是非对称的二元变量,它默认了项在事务中出现比不出现更重要。然而对于商品的数量和价格,这种非类别型数据,用非二元数据的方式表示。
2、项集:是所有项(也就是列)的集合,是所有事务(也就是行)的集合。每个事务 t 包含的项集都是 的子集[事务列对应的那一行]。在关联分析中,包含0个或者多个的项的集合称为项集。 如果一个项集包含k个项,那么就称为k-项集。空集是指不包含任何项的项集。项集 X 是事务 t 的子集,则事务 t 包括项集X[ 列t 包括对应的那一行的项集X,也包括X的子集]。比如TID=2的事务,包括{尿布、啤酒},但不包括{鸡蛋,可乐}。
3、支持度计数: