机器学习中的非均衡分类问题

最新推荐文章于 2019-03-26 11:18:39 发布

TangowL

最新推荐文章于 2019-03-26 11:18:39 发布

阅读量2k

点赞数 8

分类专栏：特征工程

本文链接：https://blog.csdn.net/lipengcn/article/details/49902449

版权

特征工程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

非均衡分类问题是指在分类器训练时，正例数目和反例数目不相等（相差很大），或者错分正反例导致的代价不同（可从代价矩阵观测）时存在的问题。

而大多数情况下，不同类别的分类代价并不相等，而诸如信用卡欺诈等场景中，正反例的样本数目相差巨大，这就需要一些新的分类器性能度量方法和技术，来处理上述非均衡问题。

1、分类器性能度量指标

分类器学习常用的错误率指标会掩盖样例如何被错分的细节，可以采用更好的性能度量指标1 —— 正确率TP/(TP+FP)和召回率TP/(TP+FN)。

实际上，单独满足其中一个指标高性能较容易，但构造一个同时高正确率有高召回率的分类器很难。至于具体选择正确率还是召回率，关键在于场景或者说研究问题，例如在购物刷单问题中，正确率远比召回率更重要。

此外可以采用性能度量指标2 —— ROC曲线，即接收者操作特征曲线。

ROC曲线给出的是当阈值变化时，假阳率和真阳率之间的变化情况。因此，我们可以通过观察ROC曲线来调节分类器的阈值，使得分类器的性能最好处于ROC曲线的左上角。由ROC曲线衍生的AUC（曲线下的面积）指标给出了分类器的平均性能值。

def plotROC(predStrengths, classLabels):
    import matplotlib.pyplot as plt
    cur = (1.0,1.0)	# current plot node
    ySum = 0.0 # for AUC
    numPosClas = sum(numpy.array(classLabels)==1.0)
	numNegClas = len(classLabels) - numPosClas
    yStep = 1/float(numPosClas)
    xStep = 1/float(numNegClas)
    sortedIndicies = predStrengths.argsort()
    fig = plt.figure()
    fig.clf()
    ax = plt.subplot(111)
    for index in sortedIndicies.tolist()[0]:
        if classLabels[index] == 1.0:
            delX = 0; delY = yStep;
        else:
            delX = xStep; delY = 0;
            ySum += cur[1]
        ax.plot([cur[0],cur[0]-delX],[cur[1],cur[1]-delY], c='b')
        cur = (cur[0]-delX,cur[1]-delY)
    ax.plot([0,1],[0,1],'b--')
    plt.xlabel('False positive rate'); plt.ylabel('True positive rate')
    plt.title('ROC curve for AdaBoost horse colic detection system')
    ax.axis([0,1,0,1])
    plt.show()
    print "the Area Under the Curve is: ",ySum*xStep