MultiResolution Attention Extractor for Small Object Detection

MultiResolution Attention Extractor for Small Object Detection

论文链接:https://arxiv.org/pdf/2006.05941.pdf

Introduction

  • 小目标物体在现实生活中的占比还是比较大的,例如在COCO数据集中物体尺寸占图片尺寸小于4%的物体达到了数据集的30%
  • 由于低分辨率和小尺寸,对于小目标进行检测是非常困难的,目前小目标检测的研究主要集中在数据预处理和缩小大小物体之间的差异

本文基于Faster RCNN框架,提出了一个针对小目标检测的多分辨率注意力提取器(MRAE),主要关注那些有用的特征然后进行加权的方式累加,用于丰富图片在特征提取时小目标的特征信息。

Comparison

在这里插入图片描述
single-size feature map:图(b)所示,没有根据目标的大小进行区分,所以对于小目标检测的效果是最差的。
image pyramid methods:图(a)所示,将图片采样到更大的尺寸并独立地对每个尺寸进行特征提取。尽管图片更大了但是小目标提取到的特征和信息还是不够丰富。

pyramidal feature hierarchy:图(c)所示,对不同大小的图片进行区分,针对具体的目标分层进行特征提取,但是分层提取导致特征信息不全。对于高层来说,产生低分辨率特征,丢失了位置和边缘信息;对于低层来说,产生了高分辨率特征丢失的位置信息较少并且保留了小目标的最大特征信息。

feature pyramid network:图(d)所示,将高层和低层特征信息进行结合,针对每个层次独立地进行目标检测任务,但是对于小目标检测来说,网络的结构还是笨重,而且FPN只是简单地将高层特征和低层特征进行融合。

MRAE:图(e)所示,利用残差网络的特点,通过一个小型网络学习不同层次的注意力权重,然后将不同层次的特征进行加权融合。

MultiResolution Attention Extractor

Soft Attention

soft起源于softmax操作,相对应的有hard attention(随机选取一个特征层)。
在这里插入图片描述
在ResNets,特征提取网络可以分为四层,分别表示为C1,C2,C3,C4,根据论文(Very deep convolutional networks for large-scale image recognition )C4层和VGG16的全连接层是一样的,所以选择前三层来生成attention maps。

通过一个small network来获得注意力权重,网络由1x1的卷积层、最大池化层和一个softmax层组成。1x1的卷积用来减少维度,相当于通道维度的加法,输出的维度为1,最大池化层来捕获最优价值的特征像素值,softmax层获取归一化权重。

权重计算:
在这里插入图片描述
在ResNets中C2,C3都比C1小,所以C2需要上采样2倍,C3需要上采样四倍,转换到和C1相同的大小;同时三者的通道数量也不相同(C1:256, C2:512, C3:1024),所以通过一个1x1的卷积将通道数转换到相同的数量,最后将上个步骤获取到的权重和转换后的特征相乘获得Attention map:
在这里插入图片描述

Attention-based feature interaction MRAE

设定输出Ct为模板,计算其他层输出与模板层的余弦相似度。例如,使用C1作为模板,然后通过一个由1x1的卷积层和一个全连接层组成的网络将C1,C2,C3转换为一个向量计算余弦相似度:
在这里插入图片描述
Di[a][b]代表向量a和b的余弦相似度,特征图Ft[a]和F1[b]之间的余弦相似度表明对于C1的注意力等级。为了计算注意力权重ai,将{D1=1,D2,D3}输入到softmax层
在这里插入图片描述
获取注意力权重后,和Soft Attention的操作相似,需要将C2, C3上采样到和C1相同大小,并增加C1, C2的通道数,生成attention map
在这里插入图片描述
两者的结构图:
在这里插入图片描述

Experiments

选取COCO数据集中边框小于32*32的小目标图片进行实验,训练集包含52032张图片,验证集中包含2164张图片,实验结果如下:
在这里插入图片描述
前四个使用的是原始的faster rcnn中使用hard attention随机选取不同层的特征图做预测,后三个实验是探究选取不同层作为MRAE注意力权重生成模板的效果对比,可以看出,选取C2层获取的结果最好。

Conlusion

本文将注意力机制用于小目标的检测,探究了soft attention和MRAE方法的实践效果。通过实验比较说明,在不使用数据预处理或者GAN的情况下,本文提出的MRAE方法能在一定程度上提升小目标检测精度。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值