文|光大科技大数据部 魏乐 卢格润
- 1 关联规则
- 1.1 关联规则基本概念
- 1.2 Apriori算法基本思路
- 2 关联分类
- 2.1 CBA关联分类算法思路
- 2.2 CBA算法实现
- 总结
关联规则(Association Rules)由Agrawal等人在1993年的文献中提及,并逐渐流行起来,主要用于发掘大量数据中项的相关关系。这种利用频繁项集挖掘潜在关系的技术对于货架摆放、购物推荐、捆绑销售和新闻推荐等都很有应用价值。但在实际应用中,人们可能更愿意关注由关联规则理论挖掘出的频繁项集,常将其用作基础数据处理,再集成其他算法从而解决实际问题,比如说数据挖掘中常见的分类问题。
关联分类(Associative Classification)是基于关联规则进行分类的一种集成挖掘算法,包括CMAR(Classfication based on Multiple Class - Association Rules)算法、CAEP(通过聚集模式显露分类)、CBA(Classification Based on Associations)关联分类算法等。其中CBA算法因为其简单、易实现、准确率较高,被广泛应用于各个领域。
1 关联规则
1.1 关联规则基本概念[1]
根据关联规则的定义:
关联规则是形如 的蕴涵式,其中, 和分别称为关联规则的前件(antecedent或left-hand-side, LHS)和后件(consequent或right-hand-side, RHS) 。其中,关联规则 ,存在支持度和信任度。
可以看出,所谓关联规则是和之间存在的某种关系。为了明确这种关系,进一步引入如下概念:
设 ={ ,,...,}是所有项目的集合,为数据事务库,其中每个事务T是项的集合,满足。每个事务具有唯一标识符,称为TID。设A是由项目构成的集合,即项集。事务T包含项集A。如果项集A中包含k个项目,则称其为k项集。
项集就是项的集合。例如啤酒和尿布组成一个集合{啤酒、尿布},其中啤酒和尿布为项,{啤酒、尿布}为项集,而且是2项集。
项集中的项X、Y同时发生的概率称之为关联规则的支持度。
项集中项X发生的情况下,则Y发生的概率为关联规则的置信度。