CBA算法---基于关联规则进行分类的算法

最新推荐文章于 2025-07-02 13:33:22 发布

原创

最新推荐文章于 2025-07-02 13:33:22 发布 · 1.1w 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #数据挖掘 #算法 #数据

CBA算法是一种基于关联规则的分类算法，它利用Apriori挖掘的频繁项来预测决策属性值。在给定已知属性值的情况下，通过计算满足最小置信度的关联规则来确定分类结果。文章介绍了算法原理、代码实现及作者在实现过程中遇到的问题，强调CBA算法依赖于Apriori的执行效果。

更多数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm

介绍

CBA算法全称是Classification base of Association，就是基于关联规则进行分类的算法，说到关联规则，我们就会想到Apriori和FP-Tree算法都是关联规则挖掘算法，而CBA算法正是利用了Apriori挖掘出的关联规则，然后做分类判断，所以在某种程度上说，CBA算法也可以说是一种集成挖掘算法。

算法原理

CBA算法作为分类算法，他的分类情况也就是给定一些预先知道的属性，然后叫你判断出他的决策属性是哪个值。判断的依据就是Apriori算法挖掘出的频繁项，如果一个项集中包含预先知道的属性，同时也包含分类属性值，然后我们计算此频繁项能否导出已知属性值推出决策属性值的关联规则，如果满足规则的最小置信度的要求，那么可以把频繁项中的决策属性值作为最后的分类结果。具体的算法细节如下：

1、输入数据记录，就是一条条的属性值。

2、对属性值做数字的替换(按照列从上往下寻找属性值)，就类似于Apriori中的一条条事务记录。

3、根据这个转化后的事务记录，进行Apriori算法计算，挖掘出频繁项集。

4、输入查询的属性值，找出符合条件的频繁项集(需要包含查询属性和分类决策属性)，如果能够推导出这样的关联规则，就算分类成功，输出分类结果。

这里以之前我做的CART算法的测试数据为CBA算法的测试数据，如下：

Rid Age Income Student CreditRating BuysComputer
1 13 High No Fair CLassNo
2 11 High No Excellent CLassNo
3 25 High No Fair CLassYes
4 45 Medium No Fair CLassYes
5 50 Low Yes Fair CLassYes
6 51 Low Yes Excellent CLassNo
7 30 Low Yes Excellent CLassYes
8 13 Medium No Fair CLassNo
9 9 Low Yes Fair CLassYes
10 55 Medium Yes Fair CLassYes
11 14 Medium Yes Excellent CLassYes
12 33 Medium No Excellent CLassYes
13 33 High Yes Fair CLassYes
14 41 Medium No Excellent CLassNo

属性值对应的数字替换图：

Medium=5, CLassYes=12, Excellent=10, Low=6, Fair=9, CLassNo=11, Young=1, Middle_aged=2, Yes=8, No=7, High=4, Senior=3

体会之后的数据变为了下面的事务项：

Rid Age Income Student CreditRating BuysComputer 
1 1 4 7 9 11 
2 1 4 7 10 11 
3 2 4 7 9 12 
4 3 5 7 9 12 
5 3 6 8 9 12 
6 3 6 8 10 11 
7 2 6 8 10 12 
8 1 5 7 9 11 
9 1 6 8 9 12 
10 3 5 8 9 12 
11 1 5 8 10 12 
12 2 5 7 10 12 
13 2 4 8 9 12 
14 3 5 7 10 11

把每条记录看出事务项，就和Apriori算法的输入格式基本一样了，后面就是进行连接运算和剪枝步骤等Apriori算法的步骤了，在这里就不详细描述了，Apriori算法的实现可以

最低0.47元/天解锁文章

3 条评论

Kivsen 2021.03.27
感谢作者，基本明白原理了。这里不同于SVM或者C4.5，而是采用频繁项集挖掘->关联规则构建来产生样例和标签之间的关系的。例如挖掘得到这样的结果:{Age="Medium",Income="Low"}->"BuyNot"和{Age="High","CredictRating=Excellent"}->"Buy"，利用这样的规则来进行判断。缺点是参数设置的不合理就没有足够的规则用来判断属于哪一类。