目标检测绝大多数方法都需要大量带注释的数据集来进行训练和评估。最常用的表示是边界框(BBs),通常定义为包含整个对象区域的最小面积矩形。然而,注释过程具有一定的主观性(尤其是当存在遮挡时),当注释者感到疲倦时,其质量可能会下降。
在本文中,我们提供的理论和实验结果表明,在用于对象检测的流行数据集中,即使存在很小的注释差异,IoU也会受到很大的影响。因此,通常用于评估对象检测器的平均精度(AP)值也会受到注释偏差或噪声的影响,尤其是对于小对象和更严格的IoU阈值 。
相关工作
一些论文评估了大型图像分类数据集中的偏差和注释错误(或“问题”)。Tsipras等人[23]评估了大型图像分类数据集(如ImageNet[1])中的注释偏差,以及数据集的创建过程可能会如何导致偏差。他们指出存在多个有效标签和不明确类别的图像,例如导弹/炮弹。对于ImageNet,在[18,19]中也报告了关于类别模糊性的类似发现,这可能会影响基于top-1准确性的质量指标。