ICCV2019 |论文阅读——SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects

前言

论文地址:https://arxiv.org/abs/1811.07126

开源代码:https://github.com/DetectionTeamUCAS/R2CNN-Plus-Plus_Tensorflow

一、背景介绍


目标检测计算机视觉的基石。尽管现在已经取得了很大的进步,但是对于小型目标、杂乱密集和任意旋转方向的目标检测依然存在着巨大的挑战。本文介绍的方法不仅适合用在航拍数据集上,也可以使用在自然图像数据集中,即SCRDet。具体来说,设计了一种采样融合网络,它将多层特征融合到有效的anchor采样中,以提高对于小型目标的检测灵敏度。与此同时,通过抑制噪声和突出物体的特征,使用有监督的像素注意力网络和通道注意力网络,用于小而杂乱的目标检测。为了更准确地进行旋转估计,将IoU常数因子添加到smooth L1 loss中,用来解决旋转边界框的边界问题。

二、SCRDet算法流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SSbfrL1F-1573892931153)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573888493349.png)]

SCRDet 模型由SF-net,MDA-net和rotation branch 组成。这是一种Two stage网络,由sf net 和mda net 提取特征图,在rotation branch 进行位置回归与分类。

算法过程:输入一张图片,首先使用resnet提取特征图,用C3和C4两层在sf-net中进行特征融合和精确的特征采样,提取更多的语义信息和位置信息,经过两个通道的元素相加,得到特征图。然后该特征图F3经过像素注意网络和通道注意网络后,与输入F3进行卷积运算,得到输出新的特征图A3。然后,A3作为Rotation Branch的输入,进行RPN提取候选框,候选框映射到特征图中后进行ROI Align ,然后进行目标分类与位置回归,得到最后预测的结果。

1. SF-Net

输入一张800×800×3的图像,根据缩放因子提取出C2、C3、C4不同尺寸的特征图,将C3和C4在SF-NET中进行特征融合,得到新的特征图F3。SA是特征图相对于原始图像的缩放因子,分别是C2维度是200×200×256,C3维度是100×100×512,C4维度是50×50×1024。

根据上面的实验结果可以得出下面两个结论:

1.c3和c4特征融合,丰富特征信息;
2.增加特征图大小(减小Sa)来提高anchor数。

2. MDA-Net

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ONxS7kqd-1573892931156)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889022474.png)]

MDA-NET分别由两部分注意力机制组成,最上面是像素注意力网络,F3经过inception模块使用不同的卷积核进行不同尺度的特征提取,然后经过卷积操作得到双通道的显著性映射(前景和背景),对目标区域进行二值化处理,得到含有目标区域的二值化图(显著性高的区域赋1值,其他不重要的区域赋0值,将图像变成由0\1组成像素点图像)。将二值图进行softmax后把数值限制在[0,1]之间。
下面是通道注意力机制(SEnet的结构),使用GAP输出C个特征通道的数值分布,然后将特征的维度降低到输入的1/r,经过relu激活后再通过一个FC将维度变为原来的维度。然后通过sigmoid获得[0,1]之间归一化的权重。
最后将三个部分相乘,得到新的特征图。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gMpi5yAw-1573892931162)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889273076.png)]

MDA-Net 可以简化为上图所示,即在通道注意力网络和像素注意力网络两个方面对特征图F3进行突出主体目标和弱化非主体,获得新的特征图A3。

3. Rotation Branch

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-05I4kvec-1573892931163)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889442810.png)]

其中,

  1. x,y :真实框的中心坐标

  2. w,h:真实框 的宽和高

  3. θ:真实框 的旋转角度

  4. xa :anchor box

  5. x’ :预测框

与典型的候选框计算不同,多了一个角度的公式,用于计算候选框的旋转角度。

上图展示了一个理想的形式,蓝色框逆时针旋转到红色框,但是由于角度的周期性,这种损失会非常大。因此模型必须以其他的形式进行回归(当缩放w和h时,蓝色盒子顺时针旋转),这样提高了回归的难度.

下面介绍损失函数的时候会提到怎么解决这个问题。在传统的smooth L1 loss中 加入IoU常数因子。在边界的情况下,损失函数|-log(IoU)|接近0,消除了损失突然增加的情况。

三、损失函数

3.1 Loss Function

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aNcGcoNJ-1573892931165)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889660113.png)]

3.2 Regrssion Loss

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ihnw70qw-1573892931167)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889744625.png)]

由于存在参数angle角度的缘故,增加IoU常数因子,可以解决复杂的回归问题,如图b所示。
在传统的smooth L1 loss中 加入IoU常数因子,在边界的情况下,损失函数|-log(IoU)|接近0,消除了损失突然增加的情况。新的损失函数是由两部分组成的,一部分是梯度的方向,另一部分是梯度的大小。此外,利用IOU优化定位精度与IOU为主的度量一致,比坐标回归更直观、有效。

3.3 Attention Loss

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26TY7K0G-1573892931169)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889846650.png)]

3.4 Classification Loss

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EDTERDyD-1573892931170)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889884350.png)]

四、实验部分

4.1 DOTA Dataset 的标注格式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F7Y4xEo0-1573892931172)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1573889982313.png)]

imagesource 表示图像来源,gsd 表示地面的采样距离,前八个数值为矩形框的四个坐标(x1,y1,x2,y2,x3,y3,x4,y4),后面表示分别是数据集的类比和检测难易程度的标注。

4.2 Visualization of the MDA-Net

在这里插入图片描述
a)表示具有模糊边界的图像,b)表示输入的特征图,c)表示输出的新特征图,d)表示具有显著性的特征图,e)表示根据显著性特征图进行二值化得出的二值图,f)表示Ground-truth.

4.3 Ablation Study

在这里插入图片描述
SF-Net有效地建模了特征融合和SA设置的灵活性,达到了68.89%的最佳性能,特别是通过对小目标的改进,达到了最好的性能,比如说:车、船、储罐。MDA-Net 进一步提高了大纵横比的检测精度。

4.4 Peer Methods Comparison

在这里插入图片描述

Table 3显示了这些方法的性能,ROI-Transformer、ICN和SCRDet在小目标检测中的优异性能归功于特征融合。SCRDet 由于融合过程中感受野的扩展和噪声的衰减,所以对于大型物体来说,它比ICN和ROI-transformer更好。我们的方法在现有出版物中排名第一。 结果:MAP达到72.61%。

在这里插入图片描述

SCRDet方法在超过一半的类别上达到了最佳的检测精度。

4.5 Experiments on Natural Images

在这里插入图片描述
结论:
由图可知,在COCO、VOC2007数据集上使用MDA-net和FPN∗分别提高了0.7%和2.22%。MDA-net在密集对象和小目标中都具有良好的性能检测。
在ICDAR2015数据集中,SCRDet相对于R2CNN-4方法也提高了2.85%。

五、结论

1、提出了一个端到端的多分类检测模型,不仅能够用于航拍图像,还可以用于COCO、VOC等常规数据集的检测。
2、提出了SF-Net,把两个不同层的feature map进行融合,并增加了一种具有较小SA的采样融合网络。
3、提出Pixel Attention和Channel Attention机制,在网络中生成权重以突出目标特征,弱化背景特征。
4、在ROI之后进行任意角的坐标检测,以保存定位信息,解决了密集图像漏检的问题。

  • 19
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值