【文献阅读5】基于上下文与注意力的小目标检测-Small Object Detection using Context and Attention
我的总结
- 融合:fusion
- 残差注意力模块:residual attention module
- L2 Norm更适合融合操作
- 基于SSD模型,Backbone是VGG16
本篇仅是简单阅读记录!!!
Small Object Detection using Context and Attention
文章连接:https://arxiv.org/abs/1912.06319v2
0 Abstract
为了提高小目标检测的精度,本文提出一种利用上下文的目标检测方法。
该方法通过连接多尺度特征,使用来自不同层的附加特征作为上下文。
还提出了具有注意力机制的目标检测,该机制可以聚焦于图片中的目标,并且可以包含来自目标层的上下文信息。
1 Introduction
目标检测的mAP较高了,但小目标mAP较低,SSD小目标检测mAP只能达到20.7%,还有很大的提升空间。
小目标检测难的原因是低分辨率和有限的像素。
把上下文信息作为额外的信息可以帮助小目标检测。
- 第一,为了提供足够的关于小对象的信息,作者通过利用来自更高层的更抽象的特征作为对象的上下文,从小对象的周围像素中提取上下文信息。通过连接小对象的特征和上下文的特征,我们增加了小对象的信息,使得检测器可以更好地检测对象。
- 第二,为了专注于小对象,作者在早期层使用了一种注意力机制。这也有助于减少背景中不必要的浅层特征信息。在作者的实验中,作者选择SSD作为基线。然而,这个想法可以推广到其他网络。
2 Related Works
深度学习目标检测:
- R-CNNFast R-CNN,慢,两步
- Faster R-CNN,速度提升,两步
- SSD,YOLO,快,一步
- 检测小目标都不太好
小目标检测:
- 数据扩充,减小大目标尺寸,解决数据不足的问题
- 反卷积技术放大特征图,DSSD反卷积所有特征图,模型复杂度变高,速度降低;R-SSD通过池化和反卷积混合不同尺寸的特征图,相较于DSSD速度精度皆有提升
- 以低分辨率的特征作为GAN的输入,获得高分辨率的特征
视觉注意力网络:
- 使用LSTM获取给定图片的相关部分,从而给图片创建图片字幕
- 叠加残差注意力模块
3 Method
- 第一,SSD通过特征融合来获取上下文信息,称为F-SSD。
- 第二,SSD具有注意力模块,使网络能力集中在重要的部分,称为A-SSD。
- 第三,作者结合了特征融合和注意力模块,命名为FA-SSD。
SSD:
其思想是利用早期特征图的较高分辨率来检测较小的物体,而利用分辨率较低的较深特征来检测较大的物体。
小目标检测精确度仍较差,原因:
- 缺少上下文信息
- 浅层特征层缺少语义信息
F-SSD:
为了给作者想要检测对象的给定特征图(目标特征)提供上下文,作者将其与来自目标特征层的更高层的特征图(上下文特征)相融合。
- 目标特征:【Conv4_3】–【3X3卷积,padding=1,stride=1,尺寸不变;BN;ReLU】–【融合:Stack堆叠融合】
- 上下文特征1:【Conv7】–【反卷积deconvolution:将上下文特征转换为与目标特征尺寸一致】–【融合】
- 上下文特征2:【Conv8_2】–【反卷积deconvolution】–融合
注:Batch Normalization 与 L2 Normalization
详细解释见连接:https://blog.csdn.net/weixin_30344795/article/details/94804119
融合的方法如下图所示。
A-SSD
手绘残差注意力模块和图五(a)一样,手绘有助于理解,后续需阅读残差注意力模块论文
FA-SSD
注:本笔记仅为记录文献阅读,防止遗忘。如有侵权,立即删除!