一.摘要
1.降低分类器复杂度,提高少数类识别率,提出代价敏感随机森林
2.随机森林为框架,Bagging平衡数据,在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价
3.在少数类识别上,比RF,敏误分类RF有更大的优势
二.背景
1.针对不平衡分类问题,有人提出了平衡随机森林(Bagging阶段采用欠取样方法平衡数据)和权重随机森林(构建决策树的过程引入权重因素)
三.代价敏感学习
1.Turney将代价归纳为9种类型
2.代价矩阵:
1)C(i,j):将j类别误分类到i
2)给定代价矩阵,在李彤贝叶斯风险准则可以计算x呗分类为i的最小期望代价
3)代价敏感分类目的:以最小误分类代价建立模型
3.代价敏感随机森林:
1)两个阶段:Bagging和产生不剪枝决策树(每个结点的分裂属性不是在整个特征空间计算,是固定一个属性特征数量K,每次分裂时,从特征集中随机有放回的取样K个属性,在此K个属性上计算最佳分裂属性)
2)在Gini指数的计算中引入代价因子(但仅考虑了误分类代价,未考虑测试代价)
4.算法描述:
1)Bagging获得Bootstrap数据集
2)对每个数据集:
a)分别计算各属性与类别的相关度,获得测试代价
b)建立不剪枝的CART决策树,修改CART决策树的属性分裂计算方式
论文链接:《一种代价敏感随机森林算法》尹华