文本检索中常用的评价指标有:MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、IOU、置信度阈值(confidence thresholds)、cascade models等
https://blog.csdn.net/u010138758/article/details/69936041
https://blog.csdn.net/zdh2010xyz/article/details/54293298
https://blog.csdn.net/luo123n/article/details/48573397
https://blog.csdn.net/yangzzguang/article/details/80540375
为了将 mAP 迁移到图像的多标签分类和 TopN 推荐任务中来。
对于图像多标签分类问题:
假设有 N 张图片,为了简单期间,暂且假设这 N 张图片仅包含 3 个标签:car、 people、stone,其中有 car 的图片有 M1 张,有people和有stone的分别有 M2 和 M3 张,那么对于单个分类标签 car,根据分类器设定的阈值,将预测列表从 top-1扩展到 top-N ,可以计算 N 个 max precision(r’ >= r) 的值,然后对 N 个 max precision(r’ >= r) 求平均值,即可得到 AP_car,同理,可以得到 AP_people 和 AP_stone,最后对这 3 个标签的 AP 值取平均,就可以计算模型在 3 个标签上的整体分类能力了。
总之,AP衡量的是学出来的模型在单个类别上的好坏 (比如AP_car),对于同一张照片(一批照片,N 张),在一个标签上分类效果好不代表在另一个标签上分类效果好,因此还需要在其他标签上计算 AP 值,最后取这些标签 AP 值的平均数,得到mAP。mAP衡量的是学出的模型在所有类别上(比如car、people、stone)的好坏,得到每个标签的 AP 后, mAP 的计算就变得很简单了,就是取所有AP的平均值,如:
mAP = (AP_car + AP_people + AP_stone)