分类不平衡对软件缺陷预测模型性能的影响研究(笔记)
摘要
分类不平衡 : 不同 类别间样本 数量分布不均衡的现象
分类不平衡影响分析方法:
设计一种 新数据集构造算法
将 原不平衡数据集 转换为 一组 不平衡率依次递增的新数据集
然后,选取 不同的 分类模型 作为 缺陷预测模型 ,分别对 构造的 新数据集 进行预测, 采用 AUC 指标来度量 不同预测模型 的 分类性能。
最后, 采用 变异系数C·V 来评价 各个预测模型 在 分类不平衡时的性能稳定程度 。
结果:
C4.5、 RIPPER 和 SMO 三种预测模型的 性能: 随着不平衡率的 增加 而 下降
代价敏感学习 和 集成学习 能够有效 提高它们在分类不平衡时 的 性能 和 性能稳定程度
更稳定: 逻辑回归、 朴素贝叶斯、 随机森林 等
一些解释:
AUC ( Area under curve )
概念: 一个模型评价指标,只能用于二分类模型的评价 (AUC和logloss基本是最常见的模型评价指标),可以避免 把 预测概率 转换成 类别
ROC 曲线:基于样本的 真实类别 和 预测概率 来画的。
二分类问题