相关评价指标在这片文章里有很好介绍
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC:http://blog.csdn.net/marising/article/details/6543943
ROC曲线:接收者操作特征(receiveroperating characteristic)
比较分类模型的可视工具,曲线上各点反映着对同一信号刺激的感受性。
纵轴:真正率(击中率)true positive rate ,TPR,称为灵敏度。所有实际正例中,正确识别的正例比例。TPR=TP/ (TP+FN)
横轴:假正率(虚报率)false positiverate, FPR,称为特异度。所有实际负例中,错误得识别为正例的负例比例。FPR= FP / (FP + TN)
|
|
Pos |
neg |
|
|
|
|
Pos |
True positive(TP) |
False positive(FP) |
|
Predicted Positive(P’=TP+FP) |
|
|
neg |
False negative(FN) |
True negative(TN) |
|
Predicted Negative(N’=FN+TN) |
|
|
|
Actual pos(P=TP+FN) |
Actual neg(N=FP+TN) |
|
|
P为所有正例个数
N为所有负例个数。
TPR=TP/ (TP+FN) = TP/P
FPR=FP / (FP +TN)= FP/N
|
Pos |
Neg |
|
pos |
TP=70 |
FP=30 |
P’=100 |
neg |
FN=20 |
TN=80 |
N’=100 |
|
P=90 |
N=110 |
|
则相关数值请自己计算。
一个阈值就决定了ROC空间中点的位置。举例来说,如果可能值低于或者等于0.8这个阈值就将其认为是正类,而其他的值被认为是负类。这样就可以通过画每一个阈值的ROC点来生成一个生成一条曲线。MedCalc是较好的ROC曲线分析软件。
在ROC空间坐标中,左上角的点,轴(0,1)点,这个代表着100%灵敏(没有假阴性)和100%特异(没有假阳性)。而(0,1)点被称为完美分类器。
而副对角线,也就是从左下到右上的对角线,也叫无识别率线,代表着一个完全随机预测。一个最直观的随机预测的例子就是抛硬币。
Roc曲线用来评价分类器的性能。通过测试分类结果可以计算得到TPR和FPR的一个点对。再通过调整这个分类器分类的阈值(从0.1到0.9),阈值的设定将实例分类到正类或者负类(比如大于阈值划分为正类)。因此根据变化阈值会产生不同效果的分类,得到多个分类结果的点,可以画出一条曲线,经过(0, 0),(1, 1)。
曲线在对角线左上方,离得越远说明分类效果好。如果出现在对角线