数据不平衡

背景

问题

传统的分类算法如决策树、 支持向量机、 人工神经网络,类别数据分布均匀的条件下,具有良好的分类性能, 得到了广泛应用。但许多实际应用中,存在着非常明显的类别不平衡数据,例如信用卡欺诈检测、 医疗疾病诊断、网络入侵检测等,在这些情况的分类处理过程中,少数类需要受到特别关注, 往往具有更大的误分类代价,然而传统分类算法基于平衡的数据分布或者相等的误分类代价之基本假设, 为保证算法总体分类准确率,通常将少数类错分至多数类,从而导致少数类识别准确率过低。因此, 传统分类算法面对类不平衡数据,分类效果不佳。

定义

在两分类数据集中 , 数量相当少的一类被称为少数类或稀缺类( minority class), 而另一类则被称为多数类( majority class), 具有这样特征的两分类数据集则被称为是不平衡的 。简单的说,就是不同类别的先验概率有着显著差异,这类问题被称为类别不平衡问题。正是由于少数类的样本和多数类的样本分别代表稀缺样本的存在与否 , 故它们通常分别被称为正样本( positive examples)和负样本( negative examples)。 国际上,不平衡类数据挖掘被列为数据挖掘领域的十大挑战性难题之一。

举个例子

通过对不同病人检查形成的一系列乳房-射线数据库已经在处理不平衡类数据算法中得到广泛应用 。 其中 , 癌变和健康的病例分别分到少数类和多数类 。 事实上 , 非癌变的病人数目要远远大于癌变的病人数目 , 在数据集中 , 存在10923 个多数类样本和 260 个少数类样本 。

在其他应用如信用卡欺骗检测、文本分类 、信息搜索及过滤、市场行为分析 等中 , 人们主要关心的是数据集中的少数类 , 但这些少数类的错分所产生的代价异常大 , 甚至是不可估量的 。

不平衡数据分类问题本质

影响分类器模型的主要因素除了数据不平衡分布 ,还有样本规模 、分离性以及类内子聚集

不平衡度

D=

结果显示 , 相对平衡的类分布通常会得到较理想的结果 ; 样本规模 、分散性等也影响着分类性能, 因此,并不能准确地描述出类不平衡达到什么程度时会导致分类性能下降 。在某些应用中, 当不平衡度为 1∶50 时可以构造一个较好的分类模型 , 然而取 1 ∶10 时却难以构造这样的分类模型 。

样本规模

当不平衡度固定时 , 样本规模对决定分类模型的好坏起到了至关重要的作用 。 样本规模较小时 , 难以发现少数类样本内在的规则 。 随着训练集的增大 , 由不平衡类引起的错误率在不断减小。 其中的道理显而易见 : 采用更多的数据时 ,少数类中更多的有用信息将有助于分类模型的形成 。 只要数据集足够大 , 类不平衡分布也不可能对分类模型造成太大影响 。

分离性

将少数类从数据集中正确分离是解决不平衡类问题的核心 。 假定每类都存在较高的可识别的模式 , 就不需要用太复杂的模式区分每一个样本 。 然而 , 如果每类的模式在特征空间中存在着不同程度的重叠 , 就难以推导出区分规则 。 当类间重叠度在变化时 , 类不平衡分布本身似乎并不是问题 , 但是当类高度重叠时 , 少数类正确分类的数目显著减少。

类内子聚集

在许多分类问题中 , 每类数据集通常包括几个子聚集 , 或子概念 。 类样本来自不同子聚集 , 这些子聚集并不包含相同数目的样本 , 这种现象被称为类内不平衡 。 类内不平衡子聚集的存在进一步加剧了类不平衡分布问题 , 具体体现在以下3 方面 :

  1. 类内不平衡子聚集的存在增加了数据集概念学习复杂性 ;
  2. 多数情况下 , 类内不平衡子聚集难以描述 ;
  3. 类内不平衡与类间不平衡两者难以有效结合 。

解决方法

  1. 数据层面, 移除部分多数类样本或者增加新的合成样例, 改变数据分布, 降低不平衡度,称之为重采样方法 ;
  2. 算法层面,分析已有算法在面对不平衡数据分类的缺陷, 改进算法或者提出新算法来提升少数类的分类准确率, 例如代价敏感学习 、集成学习 、 单类学习等;
  3. 评价标准层面,提出新的适合不平衡数据分类的分类器性能评价标准,常见的有基于混淆矩阵基础上的少数类精确度与召回率的调和均值 Fmeasure, 几何均值Gmean和 ROC 曲线等。

小结

不平衡分类问题并非是由于数据集不平衡直接导致的 , 相反 , 类不平衡性会产生一些小数据块 , 而反过来加剧不平衡性 。尽管在处理不平衡类内部和不平衡类之间设置的最大偏置对解决这类问题产生了一定效用 , 但如何生成更有效的方法是下一步研究的重点 。

针对不平衡分类问题已经出现了若干解决方案和思路 , 但其都是针对类间不平衡问题的 。 在许多情况下 , 除了类间不平衡问题外 , 类内样本的不平衡问题同样影响着分类精度 , 不平衡类问题的解决既要着眼于类间不平衡也要关注类内不平衡问题对分类性能的影响 。 如何应用有效的知识指导类内不平衡问题尚待探讨 。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值