关联规则挖掘算法_关联规则的挖掘与应用——Apriori和CBA算法

文|光大科技大数据部  魏乐 卢格润

  • 1  关联规则
    • 1.1 关联规则基本概念
    • 1.2 Apriori算法基本思路
  • 2  关联分类
    • 2.1  CBA关联分类算法思路
    • 2.2  CBA算法实现
  • 总结

关联规则(Association Rules)由Agrawal等人在1993年的文献中提及,并逐渐流行起来,主要用于发掘大量数据中项的相关关系。这种利用频繁项集挖掘潜在关系的技术对于货架摆放、购物推荐、捆绑销售和新闻推荐等都很有应用价值。但在实际应用中,人们可能更愿意关注由关联规则理论挖掘出的频繁项集,常将其用作基础数据处理,再集成其他算法从而解决实际问题,比如说数据挖掘中常见的分类问题。
关联分类(Associative Classification)是基于关联规则进行分类的一种集成挖掘算法,包括CMAR(Classfication based on Multiple Class - Association Rules)算法、CAEP(通过聚集模式显露分类)、CBA(Classification Based on Associations)关联分类算法等。其中CBA算法因为其简单、易实现、准确率较高,被广泛应用于各个领域。

1 关联规则

1.1 关联规则基本概念[1]

根据关联规则的定义:

关联规则是形如  的蕴涵式,其中, 和分别称为关联规则的前件(antecedent或left-hand-side, LHS)和后件(consequent或right-hand-side, RHS) 。其中,关联规则  ,存在支持度和信任度。

可以看出,所谓关联规则是和之间存在的某种关系。为了明确这种关系,进一步引入如下概念:

设 ={ ,,...,}是所有项目的集合,为数据事务库,其中每个事务T是项的集合,满足。每个事务具有唯一标识符,称为TID。设A是由项目构成的集合,即项集。事务T包含项集A。如果项集A中包含k个项目,则称其为k项集

项集就是项的集合。例如啤酒和尿布组成一个集合{啤酒、尿布},其中啤酒和尿布为项,{啤酒、尿布}为项集,而且是2项集。

项集中的项X、Y同时发生的概率称之为关联规则的支持度

项集中项X发生的情况下,则Y发生的概率为关联规则的置信度

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值