分类不平衡对软件缺陷预测模型性能的影响研究（笔记）

最新推荐文章于 2024-08-15 21:56:26 发布

Douzi1024

最新推荐文章于 2024-08-15 21:56:26 发布

阅读量3.3k

点赞数 2

本文链接：https://blog.csdn.net/Xiao_CangTian/article/details/89506946

版权

本文探讨了分类不平衡如何影响软件缺陷预测模型的性能，通过构造不平衡率递增的数据集，评估了多种模型如C4.5、RIPPER、SMO等。研究发现，过采样、欠采样、代价敏感学习和集成学习能改善模型在不平衡数据上的表现，其中逻辑回归、朴素贝叶斯和随机森林展现出更好的稳定性。

摘要由CSDN通过智能技术生成

分类不平衡对软件缺陷预测模型性能的影响研究（笔记）

分类不平衡对软件缺陷预测模型性能的影响研究

摘要

分类不平衡 : 不同类别间样本数量分布不均衡的现象

分类不平衡影响分析方法:

设计一种 新数据集构造算法

将原不平衡数据集转换为一组 不平衡率依次递增的新数据集

然后，选取不同的分类模型作为 缺陷预测模型 ，分别对构造的 新数据集 进行预测, 采用 AUC 指标来度量不同预测模型的分类性能。

最后，采用 变异系数C·V 来评价 各个预测模型 在 分类不平衡时的性能稳定程度 。

结果：

C4.5、 RIPPER 和 SMO 三种预测模型的性能： 随着不平衡率的增加而下降

代价敏感学习 和 集成学习 能够有效 提高它们在分类不平衡时 的性能和 性能稳定程度

更稳定： 逻辑回归、 朴素贝叶斯、 随机森林 等

一些解释：

AUC ( Area under curve )

概念：一个模型评价指标，只能用于二分类模型的评价 (AUC和logloss基本是最常见的模型评价指标)，可以避免把 预测概率 转换成类别

ROC 曲线：基于样本的 真实类别 和 预测概率 来画的。

参考：https://www.zhihu.com/question/39840928

二分类问题