R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object

本文针对旋转目标的检测提出了R3det。论文地址:https://arxiv.org/abs/1908.05612

1.Introduciton

      目前,旋转目标检测面临三个主要挑战:

  • 待检测目标纵横比较大
  • 待检测目标的排列较为密集
  • 类别不平衡

       本文讨论了如何设计一个准确和快速的旋转目标检测器。文章提出了一个refined one-stage 旋转检测器,其设计策略结合了水平anchor的高召回率和旋转anchor对密集场景的适应性两方面的优点,在第一个阶段使用水平anchor,从而获得更快的速度和更多的proposals,在refinement stage使用了refined 旋转anchors以适应密集场景; 此外,设计了特征精细化模块(FRM),利用特征插值获得refined anchor的位置信息,然后对特征图进行重建以实现特征对齐。

2. Proposed Method

该实例基于RetinaNet,网络后增加了refinement stage来对bounding box进行refine,FRM用于重建特征图。

2.1 Rotation RetinaNet

       该网络为一个先进的one-stage检测器,包括两个部分:backbone网络和分类回归子网络。Backbone网络为FPN,FPN通过自上而下的路径和横向连接来增强了卷积网络,从而有效地从单个分辨率的输入图像构建丰富的多尺度特征金字塔,每层金字塔均可以用于不同尺度的目标检测;FPN的每一层均与一个分类回归子网络相连。RetinaNet设计了focal loss来解决类别不平衡问题。

      本文使用(x,y,w,h,theta)五个参数表述旋转矩形,theta表示与x轴的锐角,变化范围为[-90,0),另一侧为w。因此,需要预测子网络中的附加角度偏移:

上式中,x,y,w,h,theta表示box的重心坐标,宽、高和角度;x.x_a.x'分别为ground-truth,anchor box和预测box。多类别的损失函数定义如下:

上式中,N表示anchor的个数,t'_n取值为0或1(foreground为1,background为0,background无回归);v'_*j表示预测的偏移矢量,v_*j表示ground-tryth的目标向量。tn为目标类别,pn为sigmoid计算的各类别概率分布。L_cls为focal loss和L_reg为smooth L1 loss。

2.2 Refined Rotation RetinaNet

在不同的refinement stage中使用了不同的IoU阈值;在first stage前景(foreground)和背景(background)的阈值分别为0.5和0.4,first refinement stage二者分别使用了0.5和0.4,如果refinement stage重复了多次,剩余的分别为0.7和0.6。Refine detector的总体损失为:

Li为第i个refinement阶段的损失,ai为权衡系数,默认为1.

2.3 Feature Refinment Module

许多refined 检测器使用相同的特征映射进行多个分类和回归,没有考虑边界框位置变化引起的特征偏移,对长宽比较大或者样本量小的类别不利。本文提出将refined边界框的位置信息重新编码到响应的特征点,从而重建整个特征映射,实现特征对齐。

特征插值公式为:

FRM的结构和伪代码如下:

具体操作位:利用双向卷积将特征映射相加来得到新的特征,细化阶段只保留每个特征点得分最高的bounding box,以提高速度,并同时保证一个特征点只对应一个细化的边界框。对于特征映射的每个特征点,根据refined bbox的五个坐标在特征图上获得对应的特征向量,通过双线性插值得到更精确地特征向量,然后添加五个特征向量并替换当前的特征向量,遍历特征点之后,重建了整个特征地图,最后将重构后的特征图加入原始特征图完成整个过程。

FRM可以保存完整的卷积结构,具有更高的效率和更少的参数。

3.在DOTA数据集上的测试

DOTA数据集包含15个类别。本文作者在实验过程中将图像分为600x600的子图并将其缩放至800*800。训练时,backbones选择了Resnet-FPN和MobileNetv2-FPN,所有的backbones在ImageNet上训练,anchor在金字塔P3-P7等级上的面积为32x32-512x512,每个金字塔层次使用了7个纵横比(1,1/2,2,1/3,3,5,1/5)和3个尺度(2^0,2^(1/3),2^(2/3)),对旋转anhor添加了6个角度(-90,-75,-60,-45,-30,-15)

  • 6
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 21
    评论
引用\[1\]:在卷积神经网络中,Squeeze-and-Excitation Networks(SENet)是一种用于建模特征通道之间相互依赖关系的结构。SENet通过学习的方式自动获取每个特征通道的重要程度,并根据这个重要程度来提升有用的特征并抑制对当前任务用处不大的特征。具体来说,SENet包括Squeeze操作、Excitation操作和Reweight操作。Squeeze操作通过全局池化将每个通道上的二维维度压缩成一个单一值,Excitation操作通过两个全连接层和一个sigmoid函数来学习每个通道的重要程度,Reweight操作将学习到的重要程度与每个对应的特征图相乘,从而得到重标定后的特征。\[1\] 引用\[3\]:在这个上下文中,"Refined Feature"指的是经过SENet结构处理后的特征。SENet通过学习特征通道之间的相互依赖关系,提升了特征的表达能力和区分度。因此,"Refined Feature"可以理解为经过SENet优化后的更加精细和丰富的特征表示。\[1\]\[3\] #### 引用[.reference_title] - *1* *2* [机器视觉 注意机制 SENet CBAM](https://blog.csdn.net/Forrest97/article/details/105593763)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [《R3DetRefined Single-Stage Detector with Feature Refinement for Rotating Object》论文笔记](https://blog.csdn.net/m_buddy/article/details/119879315)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

space_dandy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值