点击上方“深度学习工坊”,“星标”或"置顶"
关键时刻,第一时间送达
作者:赵博睿
https://zhuanlan.zhihu.com/p/55575423
本文已由赵博睿授权转载
大家好,我是旷视科技南京研究院研究员赵博睿,主要研究领域为目标检测。今天和大家聊聊mmAP的那些事~
目标检测是计算机视觉领域的一项基础问题,在许多智能场景的落地应用中目标检测通常都是视觉感知的第一步。在学术研究中,MS COCO作为目标检测领域中最常用、最权威的公共数据集被作为目前几乎每一个目标检测算法的标准“演武场”,其性能度量中的指标—mmAP更是被广大研究者耳熟能详成为经典。不过,经典之余,一些研究者往往对此“拿来主义”不求甚解。
本文上半篇将针对mmAP这一经典的目标检测评价指标详细解析其定义初衷和具体计算方式;本文的下半篇将继续分析mmAP的特点,并介绍针对这些特点现有方法如何“hack” mmAP,最后将提出几个mmAP未考虑到的评测要素。仅抛砖引玉,期待诸君有更优评价指标的提出。
目标检测
目标检测(Object Detection)是计算机视觉中非常常见的任务,该任务的输入是一张图像,输出为图像中的所有存在的目标,每个目标都要给出类别信息(是什么?)和位置信息(在哪里?)。这个位置信息通常用一个外接矩形框(俗称bounding box)来表示。
这个任务有一个特点,就是它的输出是非结构化的。也就是说,它的输出具有很强的不确定性。举个例子,图像分类任务的输入也是一张图像,输出为一个标签/类别,代表着这张图的分类,因此分类任务的输出是结构化的,有且仅有一个标签;而目标检测的输出是图像中的所有目标(类别+位置),图像中到底有多少个目标是不确定的。这一特点非常重要,也正因为这一特点,目标检测的性能度量方法要比图像分类任务复杂得多,这在后面的分析中会提到。
什么样的检测结果是“好”的?