ARS-DETR: Aspect Ratio Sensitive Oriented Object Detection with Transformer, ICCV2023
论文:https://arxiv.org/abs/2303.04989
代码:https://github.com/httle/ARS-DETR
解读:ARS-DETR:遥感领域的DETR(ICCV2023) - 知乎 (zhihu.com)
摘要
现有的目标检测方法通常使用度量AP50来度量模型的性能。论文认为AP50的角度偏差公差较大,本质上不适合旋转目标检测。因此,论文提倡使用高精度度量,如AP75,来衡量模型的性能。(论文的检测器在AP75上效果比较好,在AP50上效果不行)
本文提出了基于Transformer的高宽比敏感的旋转目标探测器,称为ARS-DETR,它在高精度面向目标检测中具有竞争力的性能。具体来说:
- 提出了一种新的角度分类方法,称为高宽比感知圆光滑标签(AR-CSL),以更合理的方式平滑角度标签,并丢弃之前工作中引入的超参数(如CSL)。
- 设计了一个旋转的可变形注意模块,使采样点以相应的角度进行旋转,消除了区域特征与采样点之间的错位。
- 采用根据长宽比的动态权重系数来计算角度损失。
简介
AP50是面向对象检测中最常用的度量,许多工作都根据AP50来比较性能。然而,论文表示怀疑:AP50能否很好地反映定向目标探测器的性能?通过可视化分析,长宽比较小的物体对角度偏差不敏感,而长宽比较大的物体则相对敏感。且遥感领域比较注重旋转框的角度,相比AP50,AP75能更好地衡量旋转框的角度。
图1显示了一些探测器的可视化。可以发现,一些边界框的中心点、长度和宽度都非常接近对象,但角度偏差很大。即便如此,它们中的大多数仍将被检测为阳性,并将在AP50方面实现高性能。因此,这种异常现象促使论文提倡使用更严格的度量(如AP75)来评估性能,并将重点放在更有意义的高精度定向对象检测上。
不同高宽比的边界框的SkewIoU变化趋势明显分为两种类型:
- ar ≤ 1.5,图b,当高宽比小于1.5时,无论角度偏差如何,SkewIoU始终大于0.5
- ar > 0.5,图c,当高宽比大于1.5时,SkewIoU会随着角度偏差的增加而迅速衰减
综上所述,长宽比较小的物体对角度偏差不敏感,而长宽比较大的物体则相对敏感。
遥感领域比较注重旋转框的角度,AP75能够更好的衡量旋转框的角度.
角度作为定向目标检测中的一个独特参数,在高精度检测中起着至关重要的作用。基于分类的方法在高精度定向目标检测中的强大潜力。但仍然存在一些问题,例如完全忽略角度和边界框之间的相关性,引入超参数(例如CSL[36]中的窗口半径)等。因此,角度预测的准确性在一定程度上受到了阻碍。
DETR将对象检测视为一个集合预测任务,并通过二分图匹配分配标签,这实现了与Faster RCNN等分类检测器相当的性能。现有的DETR变体显著提高了检测性能和收敛速度,显示出Transformer在高精度物体检测方面的巨大潜力。尽管已经提出了一些基于DETR的面向对象检测方法[,但它们仍然使用回归来预测角度,并且没有考虑边界不连续引起的问题。同时,他们以一种天真的方式预测角度,并没有探索如何将床角度信息输入DETR。如何在面向对象检测中更自然地使用DETR仍然是一个研究课题。
本文提出了一种基于纵横比敏感的可变形DETR的面向目标检测,称为ARS-DETR。具体而言,无超参数纵横比感知圆平滑标签(AR-CSL)被设计为根据对象的纵横比来表示相邻角度的关系。考虑到不同物体对角度的敏感性,AR-CSL使用每个角度偏差下具有不同纵横比的物体的SkewIoU来平滑角度标签。然后,还提出了一个旋转的可变形注意力模块,将形成的角度嵌入到基于DETR的检测器中,以对齐特征。
最后,采用了纵横比感知损失和匹配策略,使检测器的训练可以动态调整,这可以大大减轻模型训练的负担。大量实验表明,ARS-DETR在不同数据集上的高精度定向目标检测中确实是一种优秀的检测器。
贡献在于:
- 详细总结了定向对象检测中角度偏差的影响和当前定向对象检测度量(如AP50)的缺陷,并主张使用更严格的度量(如AP 75)来评估模型的性能,更多地关注高精度定向对象检测。
- 一种新的角度分类方法,称为纵横比感知圆形平滑标签(AR-CSL),采用具有不同视角比的物体在每个角度偏差下的SkewIoU值,以更合理的方式平滑角度标签,同时消除了先前工作中引入的窗口半径超参数。
- 提出了一种嵌入角度的旋转可变形注意力模块来对齐特征,并结合新的角度分类技术(即AR CSL)、去噪策略(DN)以及纵横比感知加权(ARW)和匹配(ARM)来进一步提高性能。
- 在DOTA-V.0、DIOR-R和OHD-SJTU三个公共数据集上进行的大量实验证明了所提出模型的有效性。ARS-DETR在AP75上的所有数据集中都实现了最先进的性能。
ARS-DETR方法
不使用基于回归的损失函数,而是将角度预测转换为一个分类任务,从而使边界问题自然消失。CSL将该角度划分为180个类别,并将第一角度类别和最后一个角度类别作为相邻的角度类别,从而消除了边界不连续的影响。然后,采用高斯窗口函数进行平滑,从而反映相邻角度类别之间的相关性,使其对角度估计误差有一定的容忍度。
CSL有两个问题:
- 固定标签函数。CSL采用固定半径高斯函数学习相邻角度之间的相关性,平滑标签,不考虑对象的纵横比。因为不同高宽比的物体的SkewIoU在相邻角度上差异很大,所以相邻角度之间的相关性不应该是固定的。
- 超参数引入。窗口函数的半径将极大地影响最终的性能。 作为一个超参数,当数据集使用变化时,确定半径的最佳值是一个棘手的问题。
AR-Circular Smooth Label
固定的窗口函数和超参数(即半径)在一定程度上损害了基于分类的定向对象检测器的适用性。本节从编码形式的角度来解决上述问题。
考虑到SkewIoU可以动态地反映不同物体的相邻角度之间的相关性,设计了一种感知纵横比的圆形平滑标签(AR-CSL)技术,使用SkewIoU而不是固定的窗口函数来平滑标签,以获得更合理的角度预处理。具体来说,根据等式1计算每个角度偏差下边界框的SkewIoU,并将计算值作为当前角度类别bin的标签。
AR-CSL有两点优势:
- 动态标签函数。根据目标的长宽比动态计算的平滑值
- 减少超参数。没有引入超参数,这使该方法的使用更加方便。
Rotated Deformable Attention Module
在DETR中迭代角度信息的两种方法。(a) 尽管角度信息在每一层之后都会迭代更新,但它并没有嵌入到DETR中。(b) 在本文方法中,角度信息将在每一层之后被替换为新的值,并且角度信息将有助于对齐特征。
- Naive method,只在头部上添加一个额外的角度参数来实现旋转边界盒估计。然而,这种方法会导致整个探测器的特征失调,特别是在其可变形的注意模块中。
- Ours,旋转可变形注意模块,根据嵌入的角度信息旋转采样点,使采样点与特征对齐,没有逐层的细化角度,而是独立预测每层后的一个新角度。
下图显示了一种基于DETR的定向检测器(Naive method),其仅在头部上添加额外的角度参数,以实现旋转边界盒估计。然而,它并没有将角度信息嵌入检测器中,以利用检测器的最大潜力。这种方法会导致整个检测器的特征错位,特别是在其可变形注意力模块中,如图第6(a)和第7(b)。
如图7(a)所示,可变形注意力模块中的采样点将根据相应的参考框进行调整,使采样点限制在参考框内,并尽可能落在物体内。然而,如图7(b)所示,当对象为定向类型时,如果仍然使用水平参考框,则采样点无法准确对齐对象。为此,论文设计一个可旋转变形注意力模块,根据嵌入的角度信息旋转采样点,使采样点与特征对齐,如图7(c)和图7(d)所示。对齐采样点的可视化也如图6(b)所示。此外,论文没有逐层细化角度,而是在每层之后独立预测一个新的角度,如图所示第5(b)。
Denoising Training
为了进一步提高基于DETR的模型的性能,采用了DINO的去噪(DN)训练策略。然而,在将噪声θ0添加到对象的角度上有一点不同。将λ定义为噪声标度,而不是类所采用的将类标签随机翻转到其他标签的方法.
Aspect Ratio SensitiveWeighting and Matching
修改了DETR中的角度损失函数和匹配代价:
修改后,将高宽比较大的物体与角度更相似的边框进行匹配,角度损失计算也会增加对角度精度的要求。因此,该模型可以灵活地调整不同高宽比对象的训练策略。
实验
对比实验
检测效果可视化:
消融实验