干货 | 一文总结旋转目标检测全面综述：论文方法与代码

最新推荐文章于 2024-06-04 23:47:41 发布

小白学视觉

最新推荐文章于 2024-06-04 23:47:41 发布

阅读量1.2k

点赞数 2

文章标签：计算机视觉机器学习人工智能深度学习 python

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转自｜计算机视觉联盟

1.RRPN（两阶段文字检测华科白翔组）

时间：3 Mar 2017

题目：Arbitrary-Oriented Scene Text Detection via Rotation Proposals

链接：https://arxiv.org/abs/1703.01086

创新：

应该是第一个基于RPN架构引入旋转候选框实现任意方向的场景文本检测。基于旋转的anchor得到旋转ROI，然后提取相应特征，效果可以

pipeline

预定义anchor

2.EAST （单阶段文字检测器旷世科技）

时间：11 Apr 2017

题目：EAST: An Efficient and Accurate Scene Text Detector

链接：https://arxiv.org/pdf/1704.03155.pdf

知乎解读：https://zhuanlan.zhihu.com/p/37504120

创新：

提出单阶段的检测框架figure3。提出一种新的旋转目标定义方式（特征点到旋转框的四边距离以及角度信息），如下图c，图d，e分别预测四个距离和角度信息
应该算是比较早的anchor-free方法检测旋转目标的尝试，将旋转的ground-truth box向内按比例缩小一个范围如下图左上角（a）中的绿色框，特征点落在这个绿色框内作为正样本。2019年的一篇 anchor-free 水平框目标检测器FoveaBox 和这个思路有点相似（arxiv.org/abs/1904.0379）

提出一个Locality-Aware NMS，加速nms过程

3. R2CNN （两阶段文字检测三星中国）

时间：29 Jun 2017

题目：R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

链接：https://arxiv.org/ftp/arxiv/papers/1706/1706.09579.pdf

知乎解读：https://zhuanlan.zhihu.com/p/41662351

创新：

提出一种新的旋转目标定义方式（检测顺时针顺序的四个角点中的前两个角点x1 y1 x2 y2和矩形高）

整体使用faster rcnn框架，考虑到某些文字框的宽高差距很大，在ROI pooling时除了使用7x7的pooled size 还增加了3x11和11x3 两种pooled size。3x11可以更好地捕捉水平特征，这对于检测宽大于高的框比较有好处，而11x3可以更好地捕捉竖直特征，这对于检测高大于宽的框比较有好处。

4.RR-CNN（两阶段舰船检测中科院自动化所）

时间：Sept. 2017

题目：ROTATED REGION BASED CNN FOR SHIP DETECTION

链接：https://ieeexplore.ieee.org/document/8296411

创新：

提出RRoI pooling layer，提取旋转目标特征
回归旋转目标模型
传统NMS针对同类目标做，这篇文章针对多类别提出多任务NMS

roi pooling

多任务nms

5. DRBOX（两阶段目标检测中科院电子所）

时间：26 Nov 2017

题目：Learning a Rotation Invariant Detector with Rotatable Bounding Box

链接：https://arxiv.org/pdf/1711.09405.pdf

创新：

网络pipeline如下，论文时间比较早，没具体说使用了什么网络结构，参考其他论文说法，DRBOX类似RPN结构

比较早的说明了用水平框检测旋转目标存在的问题

6. TextBoxes++（单阶段华科白翔组）

时间：9 Jan 2018

题目：TextBoxes++: A Single-Shot Oriented Scene Text Detector

链接：https://arxiv.org/pdf/1801.02765.pdf

知乎解读：https://zhuanlan.zhihu.com/p/33723456

创新：

在SSD基础上检测水平框和旋转框

使用不规则卷积核：
textboxes++中采用3x5的卷积核，以便更好的适应长宽比更大的文字

使用OHEM策略
训练过程采用OHEM策略，不同于传统的OHEM，训练分为两个stage，stage1的正负样本比为1:3，stage2的政府样本比为1:6
多尺度训练
由于Textboxes++采用了全卷积结构，因此可以适应不同尺度的输入。为了适应不同尺度目标，采用了多尺度训练。
级联NMS
由于计算倾斜文字的IOU较为耗时，因此作者采用级联NMS加速IOU计算，先计算所有所有框的最小外接矩形的IOU，做一次阈值为0.5的NMS，消除一部分框，然后再计算倾斜框的IOU的基础上做一次阈值为0.2的NMS。

7. Learning roi transformer for oriented object detection in aerial images（cvpr2019 武大夏桂松两阶段）

时间 1 Dec 2018

题目：Learning roi transformer for oriented object detection in aerial images

论文链接：https://arxiv.org/abs/1812.00155

创新：

基于水平anchor，在RPN阶段通过全连接学习得到旋转ROI（区别于RRPN设置很多旋转anchor，因为这篇文章是从水平anchor学习得到旋转ROI，减小了计算量），基于旋转ROI提取特征，然后进行定位和分类

Rotated Position Sensitive RoI Align
基于旋转框提取roi特征

8. R2PN（两阶段）

时间：August 2018

题目：Toward arbitrary-oriented ship detection with rotated region proposal and discrimination networks

链接：https://www.researchgate.net/publication/327096241_Toward_Arbitrary-Oriented_Ship_Detection_With_Rotated_Region_Proposal_and_Discrimination_Networks

创新：

感觉和RRPN比较像，基于旋转anchor，通过RPN得到旋转ROI，基于旋转ROI提取特征，然后进行定位和分类。和Learning roi transformer这篇文章区别是前者是旋转anchor，后者是水平anchor，计算量更小。

9. R2CNN++（SCRDet）（两阶段中科院电子所）

时间：17 Nov 2018

题目：SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects

链接：https://arxiv.org/abs/1811.07126

添加特征融合和空间、通道注意力机制。基于水平anchor，通过RPN预测粗糙ROI，然后检测头实现对目标的任意角的坐标预测(x,y,w,h,θ)，pipeline如下：

pipline

创新：

SF-Net：把两个不同层的feature map进行定制化融合有效检测小目标

SF-Net

MDA-Net: 使用通道注意力和像素级别的注意力机制检测密集目标和小目标

MDA-Net

提出改进版的smooth L1loss 解决旋转目标在垂直时角度（从0°会突变到-90°）存在变化不连续问题

10. CAD-Net （两阶段）

时间：3 Mar 2019

题目：CAD-Net: A Context-Aware Detection Network for Objects in Remote Sensing Imagery

链接：https://arxiv.org/pdf/1903.00857.pdf

创新：

提出GCNet（Global Context Network），在进行目标检测时融入全局上下文信息
提出PLCNet（pyramid local context network）引入空间注意力学习目标协同关系，

网络pipeline

PLCNet结构

空间注意力

11. R3Det （单阶段旋转目标检测上交&南理&旷世）

时间 Aug 2019

题目：R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

论文链接：https://arxiv.org/abs/1908.05612

code：https://github.com/SJTU-Thinklab-Det/R3Det_Tensorflow

解读链接：https://ming71.github.io/R3Det

创新：

旋转目标检测（水平目标检测也）可能存在某个anchor所在的特征点的感受野和目标位置、形状不匹配（如下图左上角，绿色框是anchor，它所在的特征点只能看到这艘船的一部分，那么直接用这个点的特征去回归anchor 以拟合ground truth（红色框）不一定准确），所以这篇论文分两个stage：first stage 从anchor预测旋转框（橙色框），如下图红色数字1->2，这时候橙色框范围和真实目标就很接近了，然后根据橙色框提取特征（我理解为类似ROI pooling特征提取），通过这个特征回归到ground truth，如下图中红色数字2->3.

网络结构沿用RetinaNet的结构，并引入了feature refinement 模块，并且可以叠加多次

网络backbone使用retinanet 结构

feature refinement 模块

END

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

小白学视觉

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
干货 | 一文总结旋转目标检测全面综述：论文方法与代码

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达本文转自｜计算机视觉联盟1.RRPN（两阶段文字检测华科白翔组）时间：3 Mar 2017题目：...
复制链接

扫一扫