不平衡类问题总结

不平衡类的问题很常见,解决该类问题的方法一般有两种,一种是在目标函数中增加惩罚项,使得错分某一种类(或多类)的成本增大。另一种是重采样,使得两类或多类的分布较为均衡。

  一个分类器的性能好坏,取决于取决于用什么样的度量标准。混淆矩阵是一种常用的度量方法,混淆矩阵的示意图如下:

其中,TN表示为 TRUE Negative,FP为false positive,FN为false negative,TP为true positive.假定有两类,分别是正类和负类。TN表示负类被分类器分成负类的个数。FP表示为负类分成正类的个数,FN表示为正类分成负类的个数,TP表示为正类被分为正类。

一般来说,分类正确性被定义为准确率Accuracy=(TP+ TN)/(TP+FP+FN+TN)。很多分类器都是以最大化准确率为优化目标。这使得Accuracy度量往往并不合适处理不平衡类。比如,区分患癌和不患癌两种人群,我们通常希望能够尽量多的识别患癌人群,即便以误分一些不患癌的人为代价。

    再来定义两个指标,真正率和假正率。

真正率TPR=TP/(TP+FN),就是正样本被正确区分的比例。假正率FPR=FP/(TN+FP),就是负样本被错误分类的比例。其中真正率又被称之为召回率。我们希望一个分类器能够做到真正率为1,而假正率为0. 如果某个分类器把所有的样本都分类为正样本,那么这个分类器的真正率为1,但是具有较高的假正率。同理,如果分类器把所有的样本都分类为负类,那么真正率为0,假正率也为0。因为,我们要找一个分类器能够在真正率和假正率之间做到最佳的折中。ROC曲线就是显示这种折中的一种图形化方法。ROC曲线以假正率为横坐标,真正率为纵坐标,如下图所示:


理想的ROC曲线是(0,100)就是说真正率为1,假正率为0。而一个随机猜测的分类器的ROC曲线是一个对角线。所谓的随机猜测是指,按照固定概率p分类样本,而不管类标签,于是正样本被正确分类的概率为p,而负样本被错分的概率也为p,由于TPR和FPR相等,所以总是在对角线上。一般来说,分类器可接受的假正率越高时,真正率就越高,所以操作者可根据需求来调整分类器。

分类器的性能可以用ROC曲线下方的面积来度量,越大越好。生出ROC曲线是算法可参加数据挖掘导论。

     精度和召回率是分类性能的另一组度量指标。

精度precision定义为TP/(TP+FP),召回率定义同真正率。精度就是分类成正类中的那些样本中哪些是真正的。一个好的分类器的目标是提高召回率的同时不降低精度。就是说尽量把正样本都分对了,但是不要把假的样本给混进来。精度和召回率往往是一对相互矛盾的指标,F度量可以把两者折中起来,定义如下:

代价敏感度量也是一种分类度量方法。这种度量一般假定犯错误的代价是已知的。用代价矩阵把一个样本错分到另一个类的代价进行编码。如下图:

把正类错分为负类的代价为100单位,而把正类分类正确得到一单位的奖励。代价矩阵可在构造模型的时候考虑进去。逻辑回归和最小二乘分类可修改目标函数。决策树可以修改叶节点的决策规则,比如叶节点的类标号不是取决于多数投票,而是取决于样本的权重。

不知道可否这样理解,修改代价相当于给稀有类样本增加了权重,这样凡是需要对样本进行计数的场合(例如投票,计算信息增益)等,稀有类都加大了话语权。感觉这样理解是正确的。


    第二种大类方法是采样方法。核心思想是改变实例的分布,帮助稀有类在训练集中有良好的表示。目前的采样技术有三种,过分抽样(oversampling)和不充分(undersampling),以及还有两种技术的混合。

不充分抽样就是从大类中抽样出大致相当于稀有类的样本数,与之一起训练模型。这种方法的问题是有些有用样本可能没有被抽出来,形成不太优的模型。解决这个问题的一个方案是多次抽样。

过分抽样就是复制正样本直到和大类(负类)差不多。但是有些噪声数据也会被复制,构成过分拟合的问题,过分抽样并没有增加有用的信息,仅仅是为了阻止模型把稀有类区域给剪掉。

不充分抽样有很多的变体,比如可以使用密度规则去掉大类的噪声数据和离群点。过分抽样可以通过分析稀有类的特征生成新的数据从而避免复制噪音点的问题。总之,类似的文献有很多。有兴趣可以参考下面这篇综述,获得更多的信息。

Nitesh V. Chawla,DATA MINING FOR IMBALANCED DATASETS: AN OVERVIEW 

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值