分类不平衡对软件缺陷预测模型性能的影响研究(笔记)

本文探讨了分类不平衡如何影响软件缺陷预测模型的性能,通过构造不平衡率递增的数据集,评估了多种模型如C4.5、RIPPER、SMO等。研究发现,过采样、欠采样、代价敏感学习和集成学习能改善模型在不平衡数据上的表现,其中逻辑回归、朴素贝叶斯和随机森林展现出更好的稳定性。
摘要由CSDN通过智能技术生成

分类不平衡对软件缺陷预测模型性能的影响研究(笔记)

分类不平衡对软件缺陷预测模型性能的影响研究

  • 摘要

    分类不平衡 : 不同 类别间样本 数量分布不均衡的现象

  • 分类不平衡影响分析方法:
    1. 设计一种 新数据集构造算法

      • 将 原不平衡数据集 转换为 一组 不平衡率依次递增的新数据集

    2. 然后,选取 不同的 分类模型 作为 缺陷预测模型分别对 构造的 新数据集 进行预测, 采用 AUC 指标来度量 不同预测模型 的 分类性能。

    3. 最后, 采用 变异系数C·V 来评价 各个预测模型分类不平衡时的性能稳定程度

  • 结果:
    • C4.5、 RIPPER 和 SMO 三种预测模型的 性能: 随着不平衡率的 增加 而 下降

    • 代价敏感学习集成学习 能够有效 提高它们在分类不平衡时性能性能稳定程度

    • 更稳定: 逻辑回归朴素贝叶斯随机森林

  • 一些解释:

AUC ( Area under curve )

  • 概念: 一个模型评价指标,只能用于二分类模型的评价 (AUC和logloss基本是最常见的模型评价指标),可以避免 把 预测概率 转换成 类别

  • ROC 曲线:基于样本的 真实类别预测概率 来画的。

  • 参考:https://www.zhihu.com/question/39840928

  • 二分类问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值