Mean Average Precision(MAP):平均精度均值
1.MAP可以由它的三个部分来理解:P,AP,MAP
P(Precision)精度,正确率。在信息检索领域用的比较多,和正确率一块出现的是召回率Recall。对于一个查询,返回了一系列的文档,正确率指的是返回的结果中相关的文档占的比例,定义为:
precision=返回结果中相关文档的数目/返回结果的数目
;
而召回率则是返回结果中相关文档占所有相关文档的比例,定义为:Recall=返回结果中相关文档的数目/所有相关文档的数目。
从数学公式理解:
混淆矩阵
True Positive(真正,TP):将正类预测为正类数
True Negative(真负,TN):将负类预测为负类数
False Positive(假正,FP):将负类预测为正类数误报 (Type I error)
False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error)
准确率(Accuracy):ACC=(TP+TN)/(Tp+TN+FP+FN)
精确率(precision):P=TP/(TP+FP)
(分类后的结果中正类的占比)
召回率(recall):recall=TP/(TP+FN)
(所有正例被分对的比例)
应用于图像识别:
有一个两类分类问题,分别5个样本,如果这个分类器性能达到完美的话,ranking结果应该是+1,+1,+1,+1,+1,-1,-1,-1,-1,-1.
但是分类器预测的label,和实际的score肯定不会这么完美。按照从大到小来打分,我们可以计算两个指标:precision
和recall
。比如分类器认为打分由高到低选择了前四个,实际上这里面只有两个是正样本。此时的recall就是2(你能包住的正样本数)/5(总共的正样本数)=0.4,precision是2(你选对了的)/4(总共选的)=0.5.
图像分类中,这个打分score可以由SVM得到:s=w^Tx+b就是每一个样本的分数。
从上面的例子可以看出,其实precision,recall都是选多少个样本k的函数,很容易想到,如果我总共有1000个样本,那么我就可以像这样计算1000对P-R,并且把他们画出来,这就是PR曲线:
这里有一个趋势,recall越高,precision越低。这是很合理的,因为假如说我把1000个全拿进来,那肯定正样本都包住了,recall=1,但是此时precision就很小了,因为我全部认为他们是正样本。recall=1时的precision的数值,等于正样本所占的比例。
平均精度AP(average precision):就是PR曲线下的面积,这里average,等于是对recall取平均。而mean average precision的mean,是对所有类别取平均(每一个类当做一次二分类任务)。现在的图像分类论文基本都是用mAP作为标准。
AP是把准确率在recall值为Recall = {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}时(总共11个rank水平上),求平均值:
AP = 1/11 ∑ recall∈{0,0.1,…,1} Precision(Recall)
均精度均值(mAP):只是把每个类别的AP都算了一遍,再取平均值:
mAP = AVG(AP for each object class)
因此,AP是针对单个类别的,mAP是针对所有类别的。
在图像识别具体应用方法如下:
- 对于类别C,首先将算法输出的所有C类别的预测框,按置信度排序;
- 选择top k个预测框,计算FP和TP,使得recall 等于1;
- 计算Precision;
- 重复2步骤,选择不同的k,使得recall分别等于0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0;
- 将得到的11个Precision取平均,即得到AP; AP是针对单一类别的,mAP是将所有类别的AP求和,再取平均:
mAP = 所有类别的AP之和 / 类别的总个数
2.faster-rcnn的MAP代码解析
Faster R-CNN/ R-FCN在github上的python源码用mAP来度量模型的性能。mAP是各类别AP的平均,而各类别AP值是该类别precision(prec)
对该类别recall(rec)
的积分得到的,即PR曲线下面积,这里主要从代码角度看一下pascal_voc.py
和voc_eval.py
里关于AP,rec, prec
的实现。
画出PR曲线,只需要在pascal_voc.py添加几行代码即可:
1.文件头部添加库:
import matplotlib.pyplot as plt
import pylab as pl
from sklearn.metrics import precision_recall_curve
from itertools import cycle
2._do_python_eval函数添加
def _do_python_eval(self, output_dir='output'):
annopath = os.path.join(
self._devkit_path,
'VOC' + self._year,
'Annotations',
'{:s}.xml')
imagesetfile = os.path.join(
self._devkit_path,
'VOC' + self._year,
'ImageSets',
'Main',
self._image_set + '.txt')
cachedir = os.path.join(self._devkit_path,