SimD_F



link
code

Abstract

由于微小目标的大小和信息的缺乏,微小目标检测已成为计算机视觉中最具挑战性的任务之一。标签分配策略是影响目标检测精度的关键因素。虽然有一些针对微小物体的有效的标签分配策略,但它们大多侧重于降低对边界框的敏感性以增加阳性样本的数量,并且需要设置一些固定的超参数。然而,更多的阳性样本并不一定意味着更好的检测结果,事实上,过多的阳性样本可能会导致更多的假阳性。在本文中,作者引入了一种简单而有效的策略——相似距离(SimD)来评估边界框之间的相似度。该策略不仅考虑了位置和形状的相似性,而且自适应地学习了超参数,确保了它可以适应不同的数据集和数据集中不同的对象大小。作者的方法可以简单地应用于常见的基于锚点的检测器中,以代替标签分配和非最大抑制(NMS)的IoU。在四种主流微小目标检测数据集上的大量实验表明,作者的方法具有优越的性能,特别是在AI-TOD上,1.8 AP点和4.1 AP点都比目前最先进的竞争对手高得多。

Introduction

Cheng等[1]在近期对小目标检测的研究中,提出根据小目标的平均面积将其分为极小、相对和一般小三类。微小目标检测面临的两个主要挑战是信息丢失和缺乏阳性样本。提高微小目标检测精度的方法有很多,如特征融合、数据增强和超分辨率等。由于足够多和高质量的阳性样本对于目标检测至关重要,因此标签分配策略是影响最终结果的核心因素

边界框越小,IoU度量的灵敏度越高[2],这就是为什么不可能将尽可能多的阳性样本标记为微小物体,而可以标记为一般物体的主要原因。传统的基于锚点和无锚点指标与SimD指标的简单比较如图1所示。

绿色、蓝色和红色框分别表示真阳性(TP)、假阳性(FP)和假阴性(FN)预测

目前对微小目标标签分配策略的研究主要集中在降低对边界框大小的敏感性。从这个角度来看,Xu等人[2]提出使用Dot Distance (DotD)代替IoU作为分配指标。后来,NWD[3]和RFLA[4]被提出,试图将ground truth和anchor建模为高斯分布,然后使用这两个高斯分布之间的距离来评估两个边界框。事实上,这些方法已经使标签分配取得了相当大的进展,但也存在一些它们可能没有考虑到的问题。
首先,这些方法大多侧重于降低对边界盒大小的敏感性,从而增加阳性样本的数量。然而,正如作者所知,过多的阳性样本可能会对目标检测器产生不利影响,导致许多假阳性
其次,这些评价指标的本质是衡量边界框之间的相似性。对于基于锚点的方法,考虑了地面真值与锚点之间的相似性。这种相似性包括两个方面:形状和位置。然而,一些方法只考虑边界框的位置,其他方法同时考虑形状和位置,但它们也有一个需要选择的超参数。
最后,尽管微小目标检测数据集中的目标大小趋于相似,但不同目标的尺度仍然存在差异。例如,AI-TOD数据集中对象的大小范围为2到64像素。这种差异在VisDrone2019数据集中更为明显,该数据集包含小型和一般大小的对象。事实上,物体的尺寸越小,获得阳性样本就越困难。遗憾的是,现有的大多数方法可能对这个问题关注较少。
在本文中,为了解决这些问题,作者引入了一个新的评估指标来代替传统的iou,作者的方法的处理流程如图2所示。

基于simd的标签分配策略处理流程。首先获取真值与锚点的坐标,然后计算真值与每个锚点之间的相似距离(SimD)。随后,作者遵循传统的标签分配策略,根据相应的阈值获得阳性和阴性样本。对于没有任何基于此策略的相关正样本的基础真理,作者将具有最大SimD值的锚指定为正样本,只要该SimD值大于最小正阈值。

主要贡献如下:
作者提出了一种简单而有效的策略,称为SimD -相似距离(SimD)来评估两个边界框之间的关系。它不仅考虑了位置和形状的相似性,而且可以有效地适应不同的数据集和数据集中不同的对象大小,而不需要设置任何超参数
大量的实验证明了作者方法的有效性。作者使用了几种通用的目标检测器,并简单地将基于iou的分配模块替换为基于作者的SimD度量的方法,这样作者就可以在四个主流的微小目标检测数据集上实现最先进的性能。

Related Work

Tiny Object Detection

由于感兴趣对象的尺寸非常小,在微小目标检测中存在三个主要挑战:
下采样进行特征提取导致大量信息丢失
目标越小,边界框变化越敏感
有效信息受限,容易受噪声干扰
因此,如果使用传统的标签分配指标,如IoU, GIoU [12], DIoU[13]和CIoU,对于物体检测,对于微小物体获得的阳性样本数量将非常少。

Label Assignment Strategies

软标签分配策略中,根据计算结果对不同的样本设置不同的权值,例如GFL[15]、VFL[16]、ood[17]和DW[18]。
根据指定阳性和阴性样本的阈值是否固定,硬标签分配策略可以进一步分为静态和动态策略。
静态标签分配策略包括基于IoU和DotD[2]度量以及RFLA[4]的策略。
动态标签分配策略的例子包括ATSS[19]、PAA[20]、OTA[21]和DSLA[22]。
从另一个角度来看,标签分配策略可以分为基于预测的策略和无预测的策略基于预测的方法根据真实值和预测边界框之间的关系为样本分配正/负标签,而无预测的方法仅根据锚点或其他现有信息分配标签

Label Assignment Strategies for Tiny Objects

迄今为止,专门为微小物体设计的标签分配策略和指标主要有S3FD[23]、DotD[2]、NWD- RKA[24]和RFLA[4]。
在S3FD中,首先降低阈值(从0.5降低到0.35)以获得更多的基础真值阳性样本,然后进一步降低到0.1,以获得第一次阈值降低未处理的基础真值的阳性样本。然而,S3FD也使用传统的IoU度量来计算地面真实值与锚点之间的相似性
为了克服IoU度量的缺点,引入了新的DotD公式,以降低对边界盒尺寸的敏感性。基于这一度量,可以获得更多的正样本。
在NWD-RKA中,引入归一化Wasserstein距离作为IoU的替代,并使用基于排序的策略将前k个样本分配为正。
RFLA从感受野的角度探讨基础真值和锚值之间的关系,在此基础上,将基础真值和锚值建模为高斯分布。然后,根据Kullback-Leibler散度(KLD)计算这两个高斯分布之间的距离,KLD用于代替IoU度量。

Method

边界框之间的相似距离

标签分配中最重要的步骤之一是计算反映不同边界框之间相似性的值。具体来说,对于基于锚点的标签分配策略,必须在分配标签之前量化锚点和基础事实之间的相似性
一些更合适的方法使用基于距离的评估指标,甚至使用高斯分布来模拟地面真值和锚点,如DotD [2],NWD[3]和RFLA[4]。
在表1中,作者从三个角度对现有指标和SimD指标进行了简单的比较。
DotD只考虑位置相似性,可能不适应数据集中不同对象大小,因此不全面或不自适应。
NWD和RFLA由于各自有超参数C和β需要设置,因此不具有自适应能力。
在本文中,作者提出了一种名为“相似度距离”(SimD)的新型度量方法,以更好地反映不同边界框之间的相似性。相似度距离定义如下:


m 和 n 是用来调整位置相似性和形状相似性的系数,分别表示水平和垂直方向上的平均差异。这些系数是通过对所有边界框的水平和垂直差异求和,然后除以总数量得到的。它们的作用是让位置和形状的相似性计算不受边界框大小的影响

SimD包括位置相似度(simlocation)和形状相似度(simshape)两部分。如(2)所示,(xg, yg)和(xa, ya)分别表示地真点与锚点的中心坐标,wg, wa, hg, ha表示地真点与锚点的宽度和高度,公式的主要部分是地真点与锚点的中心点之间的距离,类似于DotD公式[2]。不同的是,作者使用两个边界框的宽度和高度乘以相应的参数来消除不同大小的边界框之间的差异。这个过程类似于规范化的概念。这也是为什么作者的度量可以很容易地适应数据集中不同对象大小的原因。(3)的形状相似度与(2)相似。

这两个归一化参数的定义如(4)和式(5)所示,由于它们非常相似,作者以式(4)中的参数m为例进行进一步讨论。M是整个训练集合中每个图像中所有ground truth和anchor的x方向距离与两个宽度之和的平均比值。M表示训练集中图像的数量,Ni和Qi分别表示第i张图像中ground truth和anchor的数量。Xij和xik分别表示第i张图像中第j个ground truth和第k个anchor的中心点的x坐标。Wij和wik分别表示第i张图像中第j个ground truth和第k个anchor的宽度。由于两个归一化参数是基于训练集计算的,因此作者的度量也可以自动适应不同的数据集。

为了方便标签分配,作者使用指数函数将SimD的值缩放到0到1之间的范围。如果两个边界框相同,则根号下方值为零,因此SimD将等于1

基于相似距离的检测器

式(1)定义的SimD度量可以很好地反映两个边界框之间的关系,并且易于计算。因此,在需要计算两个边界框之间的相似性的场景中,可以使用它来代替IoU

基于simd的标签分配

在传统的目标检测器中,如Faster R-CNN[8]、Cascade R-CNN[25]和DetectoRS [26], RPN和R-CNN模型的标签分配策略是MaxIoUAssigner。MaxIoUAssigner考虑三个阈值:正阈值、负阈值和最小正阈值。IoU相对于基本真值高于正阈值的锚点是正样本,IoU低于负阈值的锚点是负样本,IoU介于正阈值和负阈值之间的锚点被忽略。
对于微小目标检测,Xu等人引入了RKA[24]和HLA[4]标签分配策略,它们不使用固定阈值来划分阳性和阴性样本。在RKA中,与基础真值相关的top-k锚点被简单地选择为正样本,这种策略可以增加正样本的数量,因为正标签的分配不受正阈值的限制。然而,引入过多的低质量阳性样品可能会导致检测精度下降。
在本文中,作者遵循传统的MaxIoUAssigner策略,并简单地使用SimD代替IoU。正阈值设置为0.7,负阈值设置为0.3,正最小阈值设置为0.3。作者的标签分配策略命名为MaxSimDAssigner。

SimD-based NMS

非最大抑制(NMS)是后处理的重要组成部分之一。其目的是通过仅保留最佳检测结果来消除重复检测的预测边界框。在传统的NMS程序中,首先计算得分最高的边界框与所有其他边界框之间的白条。然后,IoU高于某个阈值的边界框将被消除。考虑到SimD的优点,作者可以简单地将其作为NMS的度量来代替传统的IoU度量。

Experiment




  • 24
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值