AUC与ROC

最新推荐文章于 2024-06-11 21:00:00 发布

猪猪奋斗记

最新推荐文章于 2024-06-11 21:00:00 发布

阅读量3.9k

点赞数 3

分类专栏： Machine Learning 文章标签： AUC ROC 模型性能衡量

本文链接：https://blog.csdn.net/bigbigship/article/details/51345882

版权

Machine Learning 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

ROC(Receiver Operating Characteristic)

主要分析工具是一个画在二维平面上的曲线——ROC curve。

平面的横坐标是 false positive rate(FPR)，纵坐标是 true positive rate(TPR)。

提出 $R O C$ 的原因

这里写图片描述
由分类器决定的统计的图像是固定的，但是由于阈值不同，我们可以得到不同的， $T P R, F P R, T N R, F N R$ 值。因此我们需要找到一个独立于阈值，只和分类器有关的衡量分类器的标准。还有是在样本正负样本不平衡的情况下更好的评估分类器的性能。

AUC (Area Under roc Curve)

AUC是一种用来度量分类模型好坏的一个标准,Auc作为数值可以直观的评价分类器的好坏，值越大越好。
几何意义：
$ROC $ 图像下方的面积
物理意义：
取出一个正样本与一个负样本，正样本的Score大于负样本的Score的概率,Score表示置信度

计算AUC

方法一：直接计算下方的面积，比较麻烦，需要计算若干个梯形的面积的和。
方法二：计算正样本score大于负样本的score的概率，时间复杂度为 $O (N * M)$
方法三：将所有的样本按照score升序排序，依次用rank表示他们,如最大score的样本,rank=n(n=N+M),其次为n-1。那么对于正样本中rank最大的样本,rank_max,有M-1个其他正样本比他score小,那么就有(rank_max-1)-(M-1)个负样本比他score小。其次为(rank_second-1)-(M-2)。
$\frac{\Sigma_{正样本} rank -\frac{M*(M+1)}{2}}{N*M}$

Code

#-*- coding:utf-8 -*-
import pandas as pd
import numpy as np
from sklearn.metrics import roc_auc_score

def calc_auc(df):
    Score = sorted(df.values, key=lambda a_entry: a_entry[1])
    N = 0;M = 0
    for item in Score:
        if item[0] == 0:
            N += 1
        else:
            M += 1
    Sigma = 0
    for i in range(N+M-1,-1,-1):
        if Score[i][0] == 1:
            Sigma += i+1
    return float((Sigma-M*(M+1)/2.0)/(N*M))

def main():
    df = pd.read_csv('./data.csv',header=None)
    Ports = list(enumerate(np.unique(df[0])))
    Ports_dict ={label : i for i,label in Ports}
    df[0]=df[0].map(lambda x : Ports_dict[x]).astype(int)
    print roc_auc_score(df[0].values,df[1].values)
    print calc_auc(df)

if __name__ == '__main__':
    main()

data

p,0.9
p,0.8
p,0.6
n,0.7
p,0.54
p,0.55
n,0.53
n,0.52
p,0.51
n,0.505
p,0.4
n,0.39
p,0.38
n,0.37
n,0.36
n,0.35
p,0.34
n,0.33
p,0.3
n,0.1

AUC与ROC

ROC(Receiver Operating Characteristic)

相关概念

True Positive Rate（真正率 , TPR）或灵敏度（sensitivity）

False Positive Rate （假正率, FPR）

False Negative Rate（假负率 , FNR）

True Negative Rate（真负率 , TNR）或特指度（specificity）

提出 $R O C$ 的原因

AUC (Area Under roc Curve)

计算AUC

Code

参考资料

更多信息/快速联系博主

AUC与ROC

ROC(Receiver Operating Characteristic)

相关概念

True Positive Rate（真正率 , TPR）或灵敏度（sensitivity）

False Positive Rate （假正率, FPR）

False Negative Rate（假负率 , FNR）

True Negative Rate（真负率 , TNR）或特指度（specificity）

提出 R O C ROC ROC的原因

AUC (Area Under roc Curve)

计算AUC

Code

参考资料

更多信息/快速联系博主

提出 $R O C$ 的原因