ECCV2020 TIDE: A General Toolbox for Identifying Object Detection Errors

论文地址:TIDE: A General Toolbox for Identifying Object Detection Errors
工具代码地址:https://github.com/dbolya/tide

摘要

我们介绍了TIDE,一个用于分析对象检测和实例分割算法中的误差来源的框架和相关的工具箱。重要的是,我们的框架是跨数据集适用的,可以直接应用到输出的预测文件,而不需要了解底层的预测系统。因此,我们的框架可以作为一个替代mAP计算,同时提供一个全面的分析,每个模型的优点和缺点。我们将错误划分为六种类型,而且最关键的是,我们首先引入了一种技术,以隔离错误对整体性能的影响的方式来度量每个错误的贡献。通过对4个数据集和7个识别模型的深入分析,我们表明这样的表示法对于得出准确、全面的结论至关重要。

1.介绍

目标检测和实例分割是计算机视觉的基本任务,应用范围从自动驾驶汽车[6]到肿瘤检测[9]。最近,目标检测领域取得了迅速的进展,部分得益于挑战性的基准竞赛,如CalTech行人[8]、Pascal[10]、COCO[20]、Cityscapes[6]和LVIS[12]。通常,这些基准测试的性能用一个数字来概括:mean Average Precision(mAP)。
然而,mAP有几个缺点,其中最重要的是它的复杂性。它被定义为在一个特定的交并比(IoU)阈值处检测到的精确召回率曲线下的面积,并具有一个正确分类的标签(GT),平均于所有类别。从COCO[20]开始,mAP超过10个IoU阈值(区间0.05)的平均值成为标准,最终得到mAP0.5:0.95。当我们希望在检测器中分析错误时,这个度量的复杂性带来了一个特殊的挑战,因为错误类型变得相互交织,很难衡量每种错误类型对mAP的影响有多大。
此外,仅对mAP进行优化,我们可能无意中忽略了错误类型的相对重要性,这些错误类型在不同的应用程序中可能会有所不同。例如,在肿瘤检测中,正确的分类可能比边框定位更重要;肿瘤的存在是必要的,但精确的位置可以通过人工纠正。相比之下,精确的定位对于机器人抓取来说是至关重要的,一些轻微的定位误差都会导致错误的结果。理解这些错误来源如何与总体mAP相关,对于设计新模型和为给定任务选择合适的模型至关重要。
因此,为了解决这些问题,我们引入了TIDE,一个用于识别检测和分割错误的通用工具包。我们认为,一个完整的工具箱应该:

  1. 简明地总结错误类型,以便一目了然地进行比较;
  2. 充分隔离各错误类型的贡献,不存在影响结论的混杂变量;
  3. 不需要特定数据的注释,允许数据集之间的比较;
  4. 结合一个模型的所有预测,因为只考虑一个子集就隐藏了信息;
  5. 考虑到所需的更精细的分析,以便能够分离出误差的来源。

为什么我们需要一个新的分析工具包. 很多研究都是针对目标检测和实例分割中的误差进行分析的[15,24,7,17,22],但只有少数研究对模型中所有的误差进行了有益的总结[14,1,4],没有一个研究具有上面列出的所有理想特性。
Hoiem等人介绍了基本工作中总结错误目标检测[14],然而他们总结只解释了false positives(false negatives需要单独分析),这取决于hyperparameter N考虑控制有多少错误,因此不履行(4)。此外,为了有效地使用这个总结,这需要扩展到2d绘图,很难解释(见[11,21]中误差分析),因此在实践中仅部分地解决(1)。他们的方法也不能满足(3),因为他们的错误类型需要手动定义超类,这不仅是主观的,而且很难对像LVIS[12]这样有超过1200个类的数据集进行有意义的定义。最后,它只是部分满足(2),因为分类错误的定义,如果检测是错误的定位和错误的分类,它将被认为是错误的分类,限制了分类和定位错误得出的结论的有效性。
COCO评估工具包[1]试图通过根据错误对精确召回曲线的影响来表示错误,从而更新Hoiem等人的工作(从而使它们更接近mAP)。这允许他们一次使用所有的检测结果(4),因为精确召回曲线隐式地根据可信度给每个错误赋予权重。但是,COCO toolkit生成了372个2d图,每个图有7条精确召回曲线,这需要大量的时间来消化,因此很难进行紧凑的比较模型(1)。然而,也许最关键的问题是COCO评估工具逐步计算错误,我们显示这些错误极大地歪曲了每个错误的贡献(2),潜在地导致不正确的结论(见第2.3节)。最后,工具箱需要为COCO特定的手工注释,但其他数据集不一定需要(3)。
作为并发工作,[4]试图找到这些数据集上AP的上限,并在这个过程中解决COCO toolkit的某些问题。然而,这项工作仍然将他们的错误报告建立在与COCO toolkit使用的相同的渐进方案上,这使得他们得出了一个可疑的结论,即背景错误比其他类型的错误重要得多(见图2)。正如后面将详细描述的那样,为了得出可靠的结论,我们的工具包必须致力于分离每种错误类型的贡献(2)。

贡献. 在我们的工作中,我们解决了所有5个目标,并提供了一个紧凑的,但详细的总结目标检测和实例分割中的错误。每一种错误类型都可以用一个有意义的数字(1)表示,这使得它足够紧凑,适合消融表(见表2),包含所有的检测(4),不需要任何额外的注释(3)。我们还根据误差对整体性能的影响来衡量误差,同时小心地避免mAP(2)中出现的混淆因素。虽然我们优先考虑容易解释,但我们的方法是模块化的,同样的错误集可以用于更细粒度的分析(5)。最终的结果是一个紧凑的、有意义的、表达性强的错误集,可以跨模型、数据集甚至任务使用。

我们通过比较最近几个基于cnn的目标检测器和多个数据集的实例分割器来证明我们的方法的价值。我们解释了如何将概述纳入消融研究,以定量地证明设计选择。我们还提供了一个示例,说明如何使用错误摘要来指导更细粒度的分析,以确定模型的特定优势或劣势。

我们希望这个工具箱可以成为未来工作的分析基础,引导模型设计者更好地理解他们当前方法的弱点,并允许未来的作者定量地和紧凑地证明他们的设计选择。为此,完整的工具包代码在https://dbolya.github.io/tide/上发布。开放予社会人士,以供日后发展。

2.工具

目标检测和实例分割主要使用一个指标来判断性能: mean Average Precision (mAP)。而简洁地总结了性能的模型映射在一个数字,从mAP中理清目标检测和实例分割中的错误很困难:一个false positive 可以是重复检测,错误分类,定位错误,与背景混乱,甚至是错误分类和定位错误都有。同样地,false negative可能是完全错过的GT,或者可能正确的预测可能只是分类错误或定位错误。这些错误类型会对mAP产生巨大的不同影响,使得仅使用mAP之外的模型来诊断问题变得非常棘手。

我们可以对所有这些类型的错误进行分类,但并不完全清楚如何衡量它们的相对重要性。Hoiem等人[14]加权 false positives的TOP N最有信心的错误并分开考虑 false negatives。然而,这忽略了许多低评分检测可能产生的影响(因此有效地使用它需要对N进行扩展),并且它不允许比较 false positives和 false negatives。

不过,有一种简单的方法可以确定给定错误对整个mAP的重要性:简单地修复该错误并观察mAP中的结果更改。Hoiem等人简要地探讨了这种方法对某些false positives的影响&#x

  • 12
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值