第 卷 第 期 计 算 机 科 学
46 2 Vol.46No.2
年 月
2019 2 COMPUTER SCIENCE Feb.2019
基于类别随机化的随机森林算法
关晓蔷 庞继芳 梁吉业
(山西大学计算机与信息技术学院 太原 )
030006
(山西大学计算智能与中文信息处理教育部重点实验室 太原 )
030006
, ,
摘 要 随机森林是数据挖掘和机器学习领域中一种常用的分类方法 已成为国内外学者共同关注的研究热点 并被
. ,
广泛应用到各种实际问题中 传统的随机森林方法没有考虑类别个数对分类效果的影响 忽略了基分类器和类别之
, . , ,
间的关联性 导致随机森林在处理多分类问题时的性能受到限制 为了更好地解决该问题 结合多分类问题的特点
( ). ,
提出一种基于类别随机化的随机森林算法 RCRF 从类别的角度出发 在随机森林两种传统随机化的基础上增加
, . ,
类别随机化 为不同类别设计具有不同侧重点的基分类器 由于不同的分类器侧重区分的类别不同 所生成的决策树
, , .
的结构也不同 这样既能够保证单个基分类器的性能 又可以进一步增大基分类器的多样性 为了验证所提算法的有
, . , ,
效性 在 数据库中的 个数据集上将 与其他算法进行了比较分析 实验从两个方面进行 一方面 通过
UCI 21 RCRF
、 ; ,
准确率 和 系数 个指标来验证 算法的性能 另一方面 利用 误差图从多样性角度对各种算
F1Gmeasure Ka a 3 RCRF κG
pp
. , , .
法进行对比与分析 实验结果表明 所提算法能够有效提升集成模型的整体性能 在处理多分类问题时具有明显优势
, , ,
关键词 随机森林 多分类问题 类别随机化