auc计算逻辑

auc计算逻辑

实现auc,python

# -*- coding utf-8 -*-
# @Author: 
# @Date: 2021/3/3 11:07 上午


from sklearn.metrics import roc_auc_score
import time


def auc(y_true, y_score):
    assert len(y_true) == len(y_score)

    m = sum(y_true)
    n = len(y_true) - m

    bins = 200
    bin_width = 1 / bins
    p_bins = [0 for _ in range(bins)]
    n_bins = [0 for _ in range(bins)]

    # 分桶
    for i in range(m + n):
        index = int(y_score[i] / bin_width)
        if y_true[i] == 1:
            p_bins[index] += 1
        else:
            n_bins[index] += 1

    accumulated_n = 0
    pair = 0

    for i in range(bins):
        pair += p_bins[i] * accumulated_n + p_bins[i] * n_bins[i] * 0.5
        # 滞后一位
        accumulated_n += n_bins[i]

    return pair / (m * n)


label = [1, 0, 1, 1, 0, 1, 0, 0, 1]
score = [0.5, 0.4, 0.3, 0.7, 0.4, 0.3, 0.7, 0.4, 0.3]

# label = label*1000000
# score = score*1000000

score = [0.5, 0.3, 0.2, 0.8, 0.7]
label = [0, 1, 0, 1, 1]

begin = time.time()
auc1 = auc(label, score)
end = time.time()
print(auc1)
print(end - begin)

begin = time.time()
print(roc_auc_score(label, score))
end = time.time()
print(end - begin)

实现auc,java

package com.xueqiu.infra.xdc.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.ql.metadata.HiveException;

import java.util.Arrays;

/**
 *
 * @author 
 */

/**
 * 计算单特征auc
 */

public class RocAucScore extends UDF {
    /**
     * @param yTrue label,#分隔
     * @param yScore 预测分数,#分隔
     * @return
     * @throws HiveException
     */

    public String evaluate(String yTrue, String yScore) throws HiveException{
        int bins=200;

        if (yTrue.equals(" ") || yTrue.length() == 0 || yScore.equals(" ") || yScore.length() == 0) return "0";

        String [] labels = yTrue.split("#");
        String [] scores = yScore.split("#");

        assert (labels.length != scores.length);

        int arrayLength = labels.length;
        int[] realLabels = new int[arrayLength];
        float[] predictScores =  new float[arrayLength];

        for(int i=0; i < arrayLength; i++){
            realLabels[i] = Integer.parseInt(labels[i]);
            predictScores[i] = Float.parseFloat(scores[i]);
        }

        double binWidth = 1.0/bins;
        double[] positiveBins = new double[bins];
        double[] negativeBins = new double[bins];

        int positiveNum = Arrays.stream(realLabels).sum();
        long negativeNum = arrayLength - positiveNum;

        for(int j=0; j<arrayLength; j++){
            int index = (int) (predictScores[j]/binWidth);
            if(realLabels[j] == 1){
                positiveBins[index] += 1;
            }else{
                negativeBins[index] += 1;
            }
        }

        double accumulatedNum = 0.0;
        double pair = 0.0;

        for (int k=0; k<bins; k++){
            pair += positiveBins[k]*accumulatedNum + positiveBins[k]*negativeBins[k]*0.5;
            accumulatedNum += negativeBins[k];
        }

        return String.valueOf(pair/(positiveNum * negativeNum));
    }

    public static void main(String[] args) throws Exception {
        String yTrue = "1#0#1#1#0#1#0#0#1";
        String yScore = "0.5#0.4#0.3#0.7#0.4#0.3#0.7#0.4#0.3";

        StringBuilder sb1 = new StringBuilder();
        StringBuilder sb2 = new StringBuilder();
        int num = 1000000;
        for (int i = 0; i < num; i++) {
            sb1.append(yTrue);
            sb2.append(yScore);
            if(i<num-1){
            sb1.append("#");
            sb2.append("#");
            }
        }

        RocAucScore ras = new RocAucScore();
        long startTime = System.currentTimeMillis();
        System.out.println(ras.evaluate(sb1.toString(), sb2.toString()));
        long endTime = System.currentTimeMillis();
        long totalTime = endTime - startTime;
        System.out.println(totalTime/1000);

    }
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AUC(Area Under the Curve)是通过绘制接收者操作特征曲线(ROC曲线)评估分类器性能的一种指标。逻辑回归作为一种常用的分类算法,也可以使用AUC进行性能评估。 逻辑回归的分析方法首先要根据所需分类任务准备好相应的数据集。接着,利用逻辑回归模型对数据进行建模。逻辑回归是一种基于概率的分类算法,通过将线性回归的输出结果通过sigmoid函数映射到[0,1]之间的概率值,进而将其作为预测样本属于某一类别的概率。 在进行AUC分析之前,需要将数据集分为训练集和测试集。训练集用于建立逻辑回归模型,测试集则用于评估模型的性能。接下来,利用模型对测试集样本进行分类预测,并计算出每个样本属于阳性类别的概率。这些预测概率将用于构建ROC曲线。 为了计算AUC,首先需要计算ROC曲线。ROC曲线是以假阳性率(False Positive Rate)作为横轴,真阳性率(True Positive Rate)作为纵轴进行绘制的。真阳性率即为所预测为阳性类别且实际为阳性类别的样本占正阳性类别样本总数的比例,假阳性率则为所预测为阳性类别但实际为阴性类别的样本占负阴性类别样本总数的比例。 得到ROC曲线后,通过计算曲线下的面积,即AUC,来评估模型的性能。AUC的取值范围在0到1之间,数值越大表示分类器性能越好。 总之,逻辑回归的分析方法涉及到数据准备、模型训练、样本预测和AUC分析。通过AUC评估分类器模型的性能,能够帮助我们了解逻辑回归在分类任务中的有效性和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值