auc计算逻辑

该博客展示了如何在Python和Java中实现AUC(Area Under the Curve)的计算,用于评估分类模型的性能。提供了详细的代码示例,包括使用sklearn库的roc_auc_score函数以及自定义的AUC计算函数,适用于大数据量的情况。
摘要由CSDN通过智能技术生成

auc计算逻辑

实现auc,python

# -*- coding utf-8 -*-
# @Author: 
# @Date: 2021/3/3 11:07 上午


from sklearn.metrics import roc_auc_score
import time


def auc(y_true, y_score):
    assert len(y_true) == len(y_score)

    m = sum(y_true)
    n = len(y_true) - m

    bins = 200
    bin_width = 1 / bins
    p_bins = [0 for _ in range(bins)]
    n_bins = [0 for _ in range(bins)]

    # 分桶
    for i in range(m + n):
        index = int(y_score[i] / bin_width)
        if y_true[i] == 1:
            p_bins[index] += 1
        else:
            n_bins[index] += 1

    accumulated_n = 0
    pair = 0

    for i in range(bins):
        pair += p_bins[i] * accumulated_n + p_bins[i] * n_bins[i] * 0.5
        # 滞后一位
        accumulated_n += n_bins[i]

    return pair / (m * n)


label = [1, 0, 1, 1, 0, 1, 0, 0, 1]
score = [0.5, 0.4, 0.3, 0.7, 0.4, 0.3, 0.7, 0.4, 0.3]

# label = label*1000000
# score = score*1000000

score = [0.5, 0.3, 0.2, 0.8, 0.7]
label = [0, 1, 0, 1, 1]

begin = time.time()
auc1 = auc(label, score)
end = time.time()
print(auc1)
print(end - begin)

begin = time.time()
print(roc_auc_score(label, score))
end = time.time()
print(end - begin)

实现auc,java

package com.xueqiu.infra.xdc.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.ql.metadata.HiveException;

import java.util.Arrays;

/**
 *
 * @author 
 */

/**
 * 计算单特征auc
 */

public class RocAucScore extends UDF {
    /**
     * @param yTrue label,#分隔
     * @param yScore 预测分数,#分隔
     * @return
     * @throws HiveException
     */

    public String evaluate(String yTrue, String yScore) throws HiveException{
        int bins=200;

        if (yTrue.equals(" ") || yTrue.length() == 0 || yScore.equals(" ") || yScore.length() == 0) return "0";

        String [] labels = yTrue.split("#");
        String [] scores = yScore.split("#");

        assert (labels.length != scores.length);

        int arrayLength = labels.length;
        int[] realLabels = new int[arrayLength];
        float[] predictScores =  new float[arrayLength];

        for(int i=0; i < arrayLength; i++){
            realLabels[i] = Integer.parseInt(labels[i]);
            predictScores[i] = Float.parseFloat(scores[i]);
        }

        double binWidth = 1.0/bins;
        double[] positiveBins = new double[bins];
        double[] negativeBins = new double[bins];

        int positiveNum = Arrays.stream(realLabels).sum();
        long negativeNum = arrayLength - positiveNum;

        for(int j=0; j<arrayLength; j++){
            int index = (int) (predictScores[j]/binWidth);
            if(realLabels[j] == 1){
                positiveBins[index] += 1;
            }else{
                negativeBins[index] += 1;
            }
        }

        double accumulatedNum = 0.0;
        double pair = 0.0;

        for (int k=0; k<bins; k++){
            pair += positiveBins[k]*accumulatedNum + positiveBins[k]*negativeBins[k]*0.5;
            accumulatedNum += negativeBins[k];
        }

        return String.valueOf(pair/(positiveNum * negativeNum));
    }

    public static void main(String[] args) throws Exception {
        String yTrue = "1#0#1#1#0#1#0#0#1";
        String yScore = "0.5#0.4#0.3#0.7#0.4#0.3#0.7#0.4#0.3";

        StringBuilder sb1 = new StringBuilder();
        StringBuilder sb2 = new StringBuilder();
        int num = 1000000;
        for (int i = 0; i < num; i++) {
            sb1.append(yTrue);
            sb2.append(yScore);
            if(i<num-1){
            sb1.append("#");
            sb2.append("#");
            }
        }

        RocAucScore ras = new RocAucScore();
        long startTime = System.currentTimeMillis();
        System.out.println(ras.evaluate(sb1.toString(), sb2.toString()));
        long endTime = System.currentTimeMillis();
        long totalTime = endTime - startTime;
        System.out.println(totalTime/1000);

    }
}

 

AUC(Area Under the Curve)指标是用来评估二分类模型性能的一种常见指标,它的计算逻辑如下: 假设我们有一个二分类模型,它能够将正例和负例区分开来。我们可以将模型的预测结果按照从小到大的顺序排列,然后按照顺序依次计算每个预测结果对应的真实标签情况下的真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR)。其中,TPR表示分类器正确识别出正例的比例,FPR表示分类器错误地将负例识别为正例的比例。在计算过程中,我们可以用以下公式计算TPR和FPR: TPR = TP / (TP + FN) FPR = FP / (FP + TN) 其中,TP表示真正例数,FN表示假负例数,FP表示假正例数,TN表示真负例数。 然后,我们将TPR和FPR分别绘制在坐标轴上,得到一条ROC(Receiver Operating Characteristic)曲线。ROC曲线的横轴是FPR,纵轴是TPR。 最终,我们可以用ROC曲线下的面积AUC来评估模型的性能。AUC的取值范围在0到1之间,越接近1表示模型性能越好。如果AUC等于0.5,说明模型的分类效果跟随机猜测一样,即没有预测能力。如果AUC大于0.5,说明模型比随机猜测要好,可以用来进行分类。如果AUC等于1,说明模型完美地区分了正例和负例。 举个例子,假设我们有一个二分类模型,它能够将病人是否患有某种疾病进行分类。我们可以将模型的预测结果按照从小到大的顺序排列,然后依次计算每个预测结果对应的TPR和FPR。最终,我们得到了一条ROC曲线,如下图所示: ![image.png](attachment:image.png) 根据图中的ROC曲线,我们可以计算AUC的值为0.85,说明该模型的性能比较好,可以用来进行疾病诊断。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值