论文阅读笔记——具有圆形光滑标记的面向任意对象检测

论文简介

标题

  • 英文:《Arbitrary-Oriented Object Detection with Circular Smooth Label》
  • 翻译:《具有圆形光滑标记的面向任意对象检测

期刊情况

  • 期刊:《Conference on Computer Vision and Pattern Recognition》

论文内容

前言

面向任意目标的检测由于其在航空影像、场景文本和人脸等方面的重要性,近年来引起了视觉领域越来越多的关注。本文证明了现有的基于回归的旋转检测器存在边界不连续的问题,这是由角度周期性或角排序直接引起的。通过仔细研究,我们发现根本原因是理想预测超出了定义的范围。我们设计了一种新的旋转检测基线,通过将角度预测从回归问题转换为分类任务来解决边界问题,同时几乎没有精度损失,从而与以前在旋转检测中使用粗粒度的工作相比,设计了高精度的角度分类。我们还提出了一种圆形平滑标记(CSL)技术来处理角度的周期性,并增加相邻角度的误差容限。我们进一步介绍了CSL的四种窗函数,并探讨了不同窗半径大小对检测性能的影响。在两个大规模的航空影像公共数据集上的大量实验和可视化分析表明了该方法的有效性。


介绍

  • 目标检测是计算机视觉的基本任务之一。特别是旋转检测在航拍图像,场景文字和人脸领域发挥了巨大的作用。旋转检测器能够提供精确的方向和尺度信息,这将有助于诸如航空图像中的物体变化检测和多方向场景文本的连续字符识别等应用
  • 最近,已经提出了一系列从经典检测算法发展而来的高级旋转检测器。在这些方法中,基于区域回归的检测器占据主流,面向多对象的表示是通过旋转包围盒或四边形来实现的
  • 虽然这些旋转探测器取得了令人鼓舞的结果,但仍然存在一些基本问题。具体来说,我们注意到五参数回归和八参数回归方法都存在边界不连续的问题,这通常是由角度周期性或角排序引起的。然而,固有的原因不限于边界框的特定表示。在本文中,我们认为基于回归方法的边界问题的根本原因是理想的预测超出了定义的范围。因此,模型在边界处的损失值突然增加,使得模型不能以最简单和最直接的方式获得预测结果,并且经常需要额外的更复杂的处理。因此,这些探测器在边界条件上往往有困难。对于使用旋转边界框的检测,角度预测的准确性至关重要。轻微的角度偏差会导致重要的相交-重叠(IoU)下降,从而导致不准确的对象检测,尤其是在大纵横比的情况下
  • 已经有一些解决边界问题的工作。例如,IoU-smooth L1损失引入了IoU因子,而模旋转损失增加了边界约束,以消除边界损失的突然增加,降低模型学习的难度。然而,这些方法仍然是基于回归的检测方法,仍然没有解决上述的根本原因。
  • 本文旨在寻找一种更基本的旋转检测基线来解决边界问题。具体来说,我们将物体角度的预测视为一个分类问题,以更好地限制预测结果,然后我们设计了一个圆形平滑标签(CSL)来解决角度的周期性,并增加相邻角度之间的误差容限。虽然从连续回归到离散分类的转换,损失的精度对旋转检测任务的影响可以忽略不计。我们还介绍了CSL的四种窗函数,并探讨了不同窗半径大小对检测性能的影响。经过大量的实验和可视化分析,我们发现在不同的检测器和数据集上,基于CSL的旋转检测算法确实是比基于角度回归的方法更好的基线选择。注意后面章节提到的基于回归和基于CSL的方法是根据角度的预测形式来划分的。
  • 总之,本文的主要贡献有四个方面:
    • 我们总结了不同基于回归的旋转检测方法中的边界问题,并表明根本原因是理想的预测超出了定义的范围
    • 我们设计了一个新的旋转检测基线,将角度预测从回归问题转化为分类问题。具体来说,据我们所知,我们在旋转检测中设计了第一个基于高精度角度(小于1度)分类的管道,与以前的粗分类粒度(大约10度)方法形成对比。与基于回归的方法相比,我们的方法几乎没有精度损失,并且可以有效地消除边界问题
    • 我们还提出了圆形平滑标签(CSL)技术,作为一个独立的模块,它也可以很容易地在现有的基于回归的方法中重用,通过用分类代替回归,来解决边界条件和具有大纵横比的对象的角度预测。
    • 在DOTA和HRSC2016上的大量实验结果显示了我们的检测器的最新性能,并且我们的CSL技术作为独立组件的功效已经在不同的检测器上得到验证

相关工作

  • 水平区域物体检测: 经典的目标检测是利用水平包围盒来检测图像中的一般目标,并且已经提出了许多高性能的通用目标检测。R-CNN开创了一种基于CNN检测的方法。随后提出了快速R-CNN、更快R-CNN 和R-FCN等基于区域的模型,在提高检测速度的同时减少了计算存储量。FPN关注图像中物体的尺度变化,提出特征金字塔网络来处理不同尺度的物体。固态硬盘、YOLO 和视网膜是代表性的单级方法,它们的单级结构允许它们具有更快的检测速度。与基于锚的方法相比,许多无锚方法近年来变得非常流行。角网、中心网和极值网试图预测对象的一些关键点,如角或极值点,然后将其分组到边界框中。然而,水平检测器不能提供精确的方向和比例信息,这在诸如航空图像中的物体变化检测和多方向场景文本的连续字符识别的实际应用中造成了问题。
  • 面向任意对象的检测: 航空图像和场景文本是旋转检测器的主要应用场景。面向多对象检测的最新进展主要是由使用旋转包围盒或四边形来表示面向多对象的经典对象检测方法的适应性所驱动的。由于遥感图像场景的复杂性以
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值