分类评测标准

原创 2016年05月30日 22:30:34

1.查准率(precision)和查全率(recall)

precesion:查准率,即在检索后返回的结果中,真正正确的个数占整个结果的比例

recall:查全率,即在检索结果中真正正确的个数占整个数据集(检索到和未检索到的)中真正正确个数的比例。

FN:False Negative,被判定为负样本,但实际上是正样本。

FP:False Positive, 被判定为正样本,但实际上是负样本。

TN:True Negative: 被判定为负样本,实际上也是负样本。

TP:True Positive:被判定为正样本,实际上也是正样本。


precision=TP/(TP+FP)--------------------判对的正例占整个被判为正例的集合的比例

recall=TP/(TP+FN)-------------------------判对的正例占整个正例集的比例


PR曲线:   横轴为recall,纵轴为precision

2.综合评价指标(F-score)

F-score是Precision和Recall加权调和平均:


当参数B=1时,就是最常见的F1也就是:



3.ROC 曲线

纵轴:真正率(击中率)true positive rate,TPR,称为灵敏度。所有实际正例中,正确识别的正例比例。

TPR=TP/(TP+FN)

横轴:假正率(虚报率)false positive rate,FPR,称为特异度。所有实际负例中,错误的识别为正例的负例比例。

FPR=FP/(FP+TN)

4.AUC值

AUC的值就是计算出ROC曲线下面的面积

方法一:

统计一下所有的 M×N(M为正类样本的数目,N为负类样本的数目)个正负样本对中,有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候,按照0.5计算。然后除以MN。实现这个方法的复杂度为O(n^2)。n为样本数(即n=M+N)


方法二:

它也是首先对score从大到小排序,然后令最大score对应的sample 的rank为n,第二大score对应sample的rank为n-1,以此类推。然后把所有的正类样本的rank相加,再减去正类样本的score为最 小的那M个值的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N。即:

 AUC=((所有的正例位置相加)-M*(M+1))/(M*N)

4:平均准确率(MAP)

单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。


5:accuracy

正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好。





版权声明:本文为博主原创文章,未经博主允许不得转载。 举报

相关文章推荐

分类、推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure) /(F-score)

对一些分类、推荐系统的评测指标如准确率(Precision)、召回率(Recall)和综合指标(F-measure)作了说明。

关于汽车评测集的朴素贝叶斯分类 -AI实验

先挖个坑 等大家都交了报告再来填,总的来说第一次做朴素贝叶斯的东西,还是很有收获滴

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

FDDB数据库上评测人脸检测分类器

使用FDDB数据库测试分类器// fddb_roc.cpp : 定义控制台应用程序的入口点。 //#include "stdafx.h" #include #include #include #i...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)