不平衡类问题总结

最新推荐文章于 2024-02-23 11:38:27 发布

果然好吃

最新推荐文章于 2024-02-23 11:38:27 发布

阅读量2.1k

点赞数

本文链接：https://blog.csdn.net/u010198460/article/details/38087451

版权

不平衡类的问题很常见，解决该类问题的方法一般有两种，一种是在目标函数中增加惩罚项，使得错分某一种类（或多类）的成本增大。另一种是重采样，使得两类或多类的分布较为均衡。

一个分类器的性能好坏，取决于取决于用什么样的度量标准。混淆矩阵是一种常用的度量方法，混淆矩阵的示意图如下：

其中，TN表示为 TRUE Negative，FP为false positive，FN为false negative，TP为true positive.假定有两类，分别是正类和负类。TN表示负类被分类器分成负类的个数。FP表示为负类分成正类的个数，FN表示为正类分成负类的个数，TP表示为正类被分为正类。

一般来说，分类正确性被定义为准确率Accuracy=（TP+ TN）/（TP+FP+FN+TN）。很多分类器都是以最大化准确率为优化目标。这使得Accuracy度量往往并不合适处理不平衡类。比如，区分患癌和不患癌两种人群，我们通常希望能够尽量多的识别患癌人群，即便以误分一些不患癌的人为代价。

再来定义两个指标，真正率和假正率。

真正率TPR=TP/（TP+FN），就是正样本被正确区分的比例。假正率FPR=FP/(TN+FP)，就是负样本被错误分类的比例。其中真正率又被称之为召回率。我们希望一个分类器能够做到真正率为1，而假正率为0. 如果某个分类器把所有的样本都分类为正样本，那么这个分类器的真正率为1，但是具有较高的假正率。同理，如果分类器把所有的样本都分类为负类，那么真正率为0，假正率也为0。因为，我们要找一个分类器能够在真正率和假正率之间做到最佳的折中。ROC曲线就是显示这种折中的一种图形化方法。ROC曲线以假正率为横坐标，真正率为纵坐标，如下图所示：

理想的ROC曲线是（0，100）就是说真正率为1，假正率为0。而一个随机猜测的分类器的ROC曲线是一个对角线。所谓的随机猜测是指，按照固定概率p分类样本，而不管类标签，于是正样本被正确分类的概率为p,而负样本被错分的概率也为p，由于TPR和FPR相等，所以总是在对角线上。一般来说，分类器可接受的假正率越高时，真正率就越高，所以操作者可根据需求来调整分类器。

分类器的性能可以用ROC曲线下方的面积来度量，越大越好。生出ROC曲线是算法可参加数据挖掘导论。

精度和召回率是分类性能的另一组度量指标。

精度precision定义为TP/(TP+FP),召回率定义同真正率。精度就是分类成正类中的那些样本中哪些是真正的。一个好的分类器的目标是提高召回率的同时不降低精度。就是说尽量把正样本都分对了，但是不要把假的样本给混进来。精度和召回率往往是一对相互矛盾的指标，F度量可以把两者折中起来，定义如下：