【目标检测】|任意方向目标检测

该博客介绍了一种新的任意方向目标检测方法,称为CSL_RetinaNet,它解决了基于回归的旋转检测器的边界不连续问题。通过将角度预测转化为高精度分类任务,结合圆形平滑标签(CSL)技术,提高了相邻角度的误差容忍度。文章详细阐述了CSL的设计和损失函数,并在DOTA和HRSC2016数据集上验证了其有效性。
摘要由CSDN通过智能技术生成

Arbitrary-Oriented Object Detection with Circular Smooth Label(2020ECCV)
论文地址:https://arxiv.org/abs/2003.05597

开源代码:https://github.com/Thinklab-SJTU/CSL_RetinaNet_Tensorflow

作者解读:https://zhuanlan.zhihu.com/p/111493759

本文亮点:
将角度预测这个回归问题视为分类问题,同时结合了回归任务,提高了检测的性能。
提出CSL来解决边界不连续的问题。

Abstract

观察到基于回归的旋转检测器存在边界不连续的问题,设计了将回归任务的角度预测转变为分类任务。
提出了一种圆形平滑标签技术(CSL) 来处理角度的周期性问题,增加了对相邻角度的误差范围。
介绍了CSL中的四个窗口函数,并讨论不同窗口半径对检测性能的影响。

1 Introduction

角度周期性与角度序列的问题:
无论是五个参数还是八个参数的回归,都有存在边界不连续的问题。

基于回归方法的边界问题存在的根本原因是:
理想预测超出了定义的范围。
模型在边界处的损失剧增,使得模型不能以最简单和直接的方式得到预测结果。
微小的角度偏差会导致相交于联合IoU的下降,从而导致检测不准确。

基于边界问题,已有的工作成果:
IoU-smooth L1损失增加了IoU因子。
模旋转损失增加了边界约束,用于消除边界损失的剧增,降低模型学习难度。

本文贡献:据上述观察,提出的方法
将目标的角度预测设置为一个精度很小的分类问题,用来更好地限制预测结果。具体步骤是,在旋转检测中设计了第一种基于高精度角度(小于1度)分类 的pipeline,与之前粗分类粒度(10度左右)的方法不同。
设计一种圆形平滑的标签(CSL),用来解决角度周期性,提高相邻角之间的误差容限。——同时可以在基于回归的方法中使用。
在DOTA和HRSC2016数据集中,通过大量实验结果验证了CSL的有效性。

2 Related Work

Horizontal region object detection(水平区域目标检测)

anchor-based检测方法:
R-CNN系列:Fast R-CNN, Faster R-CNN,and R-FCN。
FPN: 针对图像中的尺度变化,提出特征金字塔网络来处理不同尺度下的目标。
SSD,YOLO,RetinaNet: 典型的一阶段检测方法,一阶段使得网络具有更快的检测速度。
anchor-free检测方法
CornerNet, CenterNet, ExtremeNet: 使用预测对象的一些关键点,比如说角点或极值点,然后将这些点分组到边界框中。

Arbitrary-oriented object detection(任意方向目标检测)

表示方法: 一般使用旋转bbox和四边形。
ICN,ROI-Transformer,SCRDet,R3Det: 目前比较SOTA的检测器。
Gliding Vertex ,RSDet: 使用四边形表示回归预测框。
RRPN: 采用旋转的RPN生成旋转的proposals,然后使用旋转bbox回归。
TextBoxes++: 在SSD上采用顶点回归。
RRD: 通过对旋转不变和旋转敏感特征的解耦分类和bbox回归,进一步改进了TextBoxes++。

Classification for orientation information(定位信息分类)

使用方向信息分类最早应用于具有任意rotation-in-plane(RIP)角度的多视点人脸识别。采用分而治之的方法,利用多个小神经网络分别处理小范围的人脸外观变化。
PCN: 逐步校准每个候选人脸的撕裂方向,并在早期阶段将撕裂范围缩小一半。最后,PCN对每一个候选人脸进行精确的最终判定,确定是否是人脸,并预测出精确的撕裂角。
在其他领域, 有采用序数回归或者有效地未来运动进行分类;还有通过对四个侧面进行分类来获得船舶的方位信息。

3 Proposed Method

在这里插入图片描述

上图表示的是本文提出的旋转检测器的结构,此图展示了一个多任务的pipeline(multi-task subnets),包括了基于回归的预测分支和基于CSL的预测分支。
这是基于RetinaNet进行改进的一阶段旋转检测器。
标红的 ”C" 和 “T” 分别表示目标和角度分类。

CSL

将角度回归的方式转换成分类的形式,因为分类的结果是有限的,不会出现超出定义范围外的情况。一种最简单的角度分类方式就是将整个定义的角度范围进行类别的划分,比如一度归为一类
在这里插入图片描述

在这里插入图片描述
其中,g ( x ) 是窗口函数,r是窗口函数的半径。θ表示当前边界框的角度。

Loss Function

在这里插入图片描述

DSL

Densely Coded Labels (DCL)是 Circular Smooth Label (CSL)的优化版本。DCL主要从两方面进行了优化:过于厚重的预测层以及对类正方形目标检测的不友好。

https://zhuanlan.zhihu.com/p/354373013

https://github.com/yangxue0827/RotationDetection

ref
https://blog.csdn.net/mary_0830/article/details/107346962?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-2.control

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值