AUC的三种计算方法

小广告

(欢迎大家关注我的公众号机器学习面试基地”,之后将在公众号上持续记录本人从非科班转到算法路上的学习心得、笔经面经、心得体会。未来的重点也会主要放在机器学习面试上!)

  1. 面积计算法,直接计算ROC曲线下的面积。利用一个变量来记录每个矩形的高度,正例时只增加高度,只有遇到负例曲线往右走时才累加面积。其实这样的计算方式是很简洁的,但是不能应对概率相等的情况。比如对于一个正样本和一个负样本,他们被预测为正的概率都是0.8,那么它们的排序关系就很重要了,把正样本排在前面和负样本排在前面对应的是两种不同的曲线,得到的曲线面积AUC自然也就是不相同的,因此网上大多都没有采用面积计算法

    def my_auc_calculate(labels,preds):
        pos_len = sum(labels)
        neg_len = len(labels) - pos_len
        comb = zip(labels,preds)
        comb = sorted(comb, key=lambda x: -x[1])
        height = 0
        my_auc = 0
        for i in range(len(comb)):
            if comb[i][0] == 1:
                height += 1/pos_len
            else:
                my_auc += height/neg_len
        return my_auc
    y = np.array([1, 0, 0, 0, 1, 0, 1, 0])
    pred = np.array([0.9, 0.1, 0.4, 0, 0.8, 0,     0.66, 0.75])
    res = my_auc_calculate(y, pred)
    print(res)
    
  2. 概率计算法,这种算法也十分简洁。它利用了AUC另外一个物理含义就是:那么AUC的含义就是所有穷举所有的正负样本对,正样本的概率大于负样本的概率。给定正样本M个,负样本N个,计算可以通过遍历所有情况,如果正样本的预测概率大于负样本的预测概率,那么就+1;如果如果正样本的预测概率等于负样本的预测概率,那么就+0.5, 如果正样本的预测概率小于负样本的预测概率,那么就+0;最后把统计处理的个数除以M×N就得到我们的AUC.参考自https://zhuanlan.zhihu.com/p/84035782

    def AUC(label, pre):
        pos = [i for i in range(len(label)) if label[i] == 1]
        neg = [i for i in range(len(label)) if label[i] == 0]
        #计算正样本和负样本的索引,以便索引出之后的概率值
        auc = 0
        for i in pos:
            for j in neg:
                if pre[i] > pre[j]:
                    auc += 1
                elif pre[i] == pre[j]:
                    auc += 0.5
        return auc / (len(pos)*len(neg))
    
  3. 第三种方法也是上面的概率计算法,但是它用了两个个概率直方图来分别记录每个预测概率对应的正负样本的数量。比如0.8概率对应10个正样本,那么0.8以下的所有负样本之和乘以10个正样本数,就得到了0.8的正样本对应的比它小的负样本数,当然还有概率相同的0.8的负样本,需要*0.5。同理按照上述方法遍历所有概率值,就能得到所有正样本概率大于负样本概率的数量。最后除以所有的样本对数即可。
    - 其中n_bins对应了概率直方图的精度,如果预测概率只保留一位小数点,那么n_bins=10就行,如果保留两位小数点,那么=100就行,依次类推。。。
    - 参考自 https://zhuanlan.zhihu.com/p/84035782

    import numpy as np
    from sklearn import metrics
    def auc_calculate(labels,preds,n_bins=100):
        postive_len = sum(labels)
        negative_len = len(labels) - postive_len
        total_case = postive_len * negative_len
        pos_histogram = [0 for _ in range(n_bins)]
        neg_histogram = [0 for _ in range(n_bins)]
        bin_width = 1.0 / n_bins
        for i in range(len(labels)):
            nth_bin = int(preds[i]/bin_width)
            if labels[i]==1:
                pos_histogram[nth_bin] += 1
            else:
                neg_histogram[nth_bin] += 1
        accumulated_neg = 0
        satisfied_pair = 0
        for i in range(n_bins):
            satisfied_pair += (pos_histogram[i]*accumulated_neg + pos_histogram[i]*neg_histogram[i]*0.5)
            accumulated_neg += neg_histogram[i]
        return satisfied_pair / float(total_case)
    if __name__ == '__main__':
        y = np.array([1,0,0,0,1,0,1,0,])
        pred = np.array([0.9, 0.8, 0.3, 0.1,0.4,0.9,0.66,0.7])
        print("-----sklearn:",metrics.roc_auc_score(y, pred))
        print("-----py脚本:",auc_calculate(y,pred))
    
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值