Small Object Detection using Context and Attention(使用上下文和注意力机制的小型物体检测)

Small Object Detection using Context and Attention

使用上下文和注意力机制的小型物体检测

Jeong-Seon         Lim University of Science and Technology         jungsun0427@etri.re.kr

Marcella Astrid         University of Science and Technology         marcella.astrid@ust.ac.kr

Hyun-Jin Yoon         Electronics and Telecommunications Research Institute   hjyoon73@etri.re.kr

Seung-Ik Lee         Electronics and Telecommunications Research Institute      the silee@etri.re.kr

摘要

        在各种环境下应用物体检测算法有很多限制之处。检测小型物体尤其是一个仍然存在的挑战,因为小型物体具有低分辨率和有限的信息。我们提出一个使用上下文和注意力机制的物体检测方法来提高检测小型物体的精度。该方法通过多尺度特征的连接,将不同层次的附加特征作为上下文。我们还提出了使用注意力机制的物体检测方法,该方法可以关注图片中的小物体,并且能包括来自目标层的上下文信息。实验结果表明,相较于SSD在检测小型目标上,该方法也能有更高的精度。另外,对于300*300的输入,在PASCAL VOC2007测试集上,我们达到了78.1%的mAP。

1.引言

        物体检测是计算机视觉领域的关键话题,其目标是找到物体的边界框,辨别其类别并在图中标注出来。近几年,在深度学习技术的引领下,该领域取得了巨大的提升:Faster R-CNN【13】实现了73.2%mAP,YOLOv2【12】实现了76.8%mAP,SSD【10】实现了77.5%mAP。然而,在检测小型物体方面仍然有重大的挑战。例如,SSD在小物体检测上只能达到20.7%mAP。图1展示了SSD没能检测出小物体的失败案例。在小物体检测上还有很多的提升空间。

 

        小物体检测因为低分辨率和有限的像素而困难。例如,仅仅通过看图2中的物体,甚至对于人类来说,识别其中的物体也是很困难的。然而,通过考虑其处在天空中的上下文信息,这个物体可以被识别为一只鸟。因此,我们相信解决问题的关键在于我们怎样可以将上下文信息囊括起来,作为帮助检测小物体的额外信息。

 

        本文中,我们提出使用上下文信息对象以应对检测小物体时的挑战。首先,为了提供关于小物体的足够信息,我们通过利用更高层次的抽象特征来从小物体的周围像素中提取上下文信息作为一个对象的上下文信息。通过把一个小物体的特征和上下文的特征连接在一起,我们为小物体增加了信息,这样以来便可以让检测器更好地检测小物体。然后,为了关注到小物体,我们在前面的层里使用了注意力机制。这也有助于减少来自背景的不必要的阴影信息。在实验中,我们选择SSD【10】作为基线。然而,这个想法可以被推广到其他网络。为了评估该模型的表现,我们针对PASCAL VOC2007和VOC2012训练我们的模型,并将提供与基线和最先进的VOC2007方法的比较。

2.相关工作

        基于深度学习的物体检测

        深度学习技术的先进之处已经大大提高了物体检测的精度。基于深度学习的物体检测的最初尝试是R-CNN【4】。R-CNN将卷积神经网络(CNN)用于使用选择性搜索生成的区域建议【16】。然而,该方法在实时应用方面很缓慢,因为每个区域建议是串行式地穿过CNN的。Fast R-CNN【3】比R-CNN更快,因为它对于所有的区域建议只实施一次特征提取阶段。但是这两个作品仍然对区域建议使用单独的阶段,这成为了Faster R-CNN的主要攻克点。Faster R-CNN将区域建议阶段和分类阶段结合在一个模型中,以至于它允许所谓的端到端学习。物体检测技术已经被在实时物体检测上展示了卓越表现的YOLO【11】和SSD【10】加速。然而,它们在小物体的检测上表现得仍不够好。

        小物体检测

        近来,在小物体检测上提出了几个想法【10,2,7,8】。Liu等人【10】通过减小大物体的尺寸来增强小物体数据,以克服数据量不够的问题。除了数据增强的方法外,也有人在不增加数据集本身的情况下增加所需信息。DSSD【2】在SSD的所有特征图上应用去卷积技术来得到比例增大的特征图。然而,它有了两个方面的局限性:增加了模型复杂度,由于对所有特征图应用去卷积模块导致的速度降低。R-SSD【7】通过池化和去卷积来结合不同尺度的特征,并且相较于DSSD提高了精度和速度。Li等人【8】使用生成对抗网络(GAN)来借助作为GAN的输入的低分辨率特征生成高分辨率特征。

        可视化注意力网络

        深度学习中的注意力机制可以被广泛地理解为关注输入的局部来解决特定的任务,而不是看整个输入。因此,注意力机制和人类在看或听一些事物上的做法很相似,Xu等人【18】使用可视化注意力来生成图片的说明。为了生成对应于图片的标题,他们使用长短期记忆(LSTM),LSTM提取所给图片的相关部分。Sharm等人【18】在识别视频中的动作方面应用了注意力机制。Wang等人【17】通过堆叠剩余注意模块提高了在ImageNet数据集上的分类表现。

3.方法

        本节将讨论SSD基准,然后紧接着是我们提出的用以提高小物体检测能力的组件。首先,SSD用特征融合来得到上下文关系,叫做F-SSD。然后,SSD用注意力模块来赋予网络关注重要部分的能力,叫做A-SSD。最后,我们将特征融合和注意力模块两者融合在一起,称为FA-SSD。

3.1 SSD

 

        本节,我们来回顾SSD,我们用它提高小物体的检测能力。像YOLO【11】一样,它是一个单阶段的检测器,正如在图3a中所示,其目标是提高速度,同时也通过处理不同层的特征图来促进不同尺度的检测。

        它基于VGG16【15】主干,其带有不同的层以创建不同分辨率的特征图,如图3a所示。在每个特征里,有一个额外的卷积层来匹配输出通道,此网络预测既有边界框回归又有物体分类的输出。

        然而,它在小物体检测上的表现依然低下,在VOC2007数据集上精度为20.7%,依然有很大的提升空间。我们认为有两个原因。首先,缺乏用来检测小物体的上下文信息。在这之上,用来做小物体检测的特征提取于缺乏语义信息的浅层特征。我们的目标是通过增加特征融合来解决这两个问题,改善SSD。另外,为了更高的提升,我们增加了注意力机制来让网络只关注于重要的局部。

3.2 F-SSD:通过特征融合而具有上下文信息的SSD

        为了给给定的特征图(目标特征,在此图检测物体)提供上下文,我们将他与比目标特征所在层更高的层的特征图(上下文特征)融合。例如在SSD中,从conv4_3给了我们目标特征,我们的上下文特征来自于两个层,它们是conv7和conv8_2,如图3b所示。尽管我们的特征融合可以被推广到任何目标特征和任何其更高的特征。然而哪些特征图具有不同的空间大小,因此我们提出了如图4所描述的融合方案。在通过连接特征来使其融合之前,我们在上下文特征中实施反卷积,以让它们拥有同样带有目标特征的空间大小。我们把上下文特征通道设置到半个目标特征,以致于让上下文信息不会盖过目标特征本身。仅仅对于F-SSD来说,我们也向目标特征增加一个额外的卷积层,不改变空间大小和通道数量。另外,在连接特征之前,一个归一化的步骤是重要的,因为来自不同层的不同特征值有不同尺度。因此,我们在每一层后执行批处理归一化和ReLU。最后,我们把目标特征和上下文特征通过堆叠连接在一起。

 

3.3 A-SSD:具有注意力机制的SSD

        视觉注意力机制遵循关注于一个图像的局部而不是看整个区域。受到Wang等人提出的残差注意力机制的启发,我们采用了残差注意力模块用于物体检测。至于我们的A-SSD(图3c),我们在conv4_3和conv7后面放了两阶段的残差注意力模块。尽管它可以推广到任何层。每个残差注意力步骤都可以被图5描述。它包含一个主干分支和一个遮罩分支。主干分支有两个残差块,每个块有3个卷积层,如图5d。遮罩分支通过执行具有残差连接的下采样和上采样来输出注意力图。(图5b是第一阶段,图5c是第二阶段),最后是sigmoid激活。残差连接使得下采样阶段的特征得以保留。来自遮罩分支的注意力图后来与主干分支的输出相乘,产生新增的特征。最后,新增的特征跟随着另一个残差块,L2归一化和ReLU。

 

3.4 FA-SSD:在SSD中结合了特征融合和注意力机制

        我们提出连接3.2节和3.3节提到的两个特征的方案,它可以从目标层和不同层中考虑上下文信息。和F-SSD相比,我们设置了单阶段注意力机制而不是在目标特征上执行卷积层,如图3d所示。特征融合方案(图4)是相同的。

4.实验

4.1 实验准备

        我们将提出的方案应用到具有相同参数的SSD【10】上。我们使用带有VGG16主干和300*300输入的SSD,除非另有说明。对于FA-SSD,我们对SSD的conv4_3和conv7应用了特征融合方法。conv4_3作为目标时,conv7和conv8_2被用作上下文层,conv7作为目标时,conv8_2和conv9_2被用作上下文层。我们在更低的两层里应用注意力机制来检测小物体。注意力机制的输出有和目标特征相同的尺寸。我们使用PASCAL VOC2007和VOC2012训练集来训练我们的模型。在最初的80000次迭代中有10^-3的学习率,然后在100000次和120000次迭代中减少到了10^-4和10^-5,批处理大小为16。所有的测试结果都用VOC2007测试集测试过,并且我们按照COCO【9】进行物体大小分类,小物体区域小于32*32,大物体区域大于96*96。我们用PyTorch和Titan Xp machine做训练和测试。

4.2 模型简化测试

        为了测试每个特征融合和注意力机制元素和SSD基线相比的重要性,我们比较了SSD,F-SSD,A-SSD和FA-SSD的表现。表1展示了所有的F-SSD,A-SSD比SSD更好,这意味着每个组成元素都提高了基线。尽管像FA-SSD一样结合融合和注意力机制没有得到比F-SSD更好的整体表现,FA-SSD展示了在小物体检测上的最好表现和显著提高。

 

 4.3 推理时间

        表1的结果中有一个有趣的点,随着更多的组成部分加入,速度并不是总是变慢。这激发我们去研究推理时间的更多细节。检测的推理时间分为两部分,网络推理和包括非极大值抑制(NMS)的后处理。基于表2,尽管SSD有最快的前向传播时间,它在后处理上是最慢的,因此总的来说它仍然慢于F-SSD和A-SSD。

 

4.4 定性结果

        图7定性展示了SSD和FA-SSD的比较,SSD在检测小物体时败给了FA-SSD

 

4.5 注意力可视化

        为了对检测模块有更多的了解,我们从FA-SSD中可视化了注意力遮罩。注意力遮罩在图5a的sigmoid函数之后采用。注意力遮罩有很多通道,conv4_3有512个,conv7有1024个。每个通道关注于不同的事物,包括物体和上下文。在图8中,我们可视化了一些注意力遮罩的样本。 

 

4.6 残差网络主干的泛化

        为了了解SSD不同主干的泛化能力,我们用残差网络结构来实验,尤其是ResNet18,ResNet34和ResNet50。为了使特征尺寸和VGG16主干的原始SSD相同,我们从2层结果中取特征(图6a)。然后F-SSD(图6b),A-SSD(图6c)和FA-SSD(图6d)就跟随在VGG16主干网络版本之后。正如表3所示,除了ResNet34主干网络版本在小物体上的性能不是最好的之外,其他都是遵循表1中VGG16主干网络版本趋势。

 

 

4.7 VOC2007上的结果

        我们在表4中进行了比较。所有被比较的方法都用VOC2007和VOC2012训练集训练。尽管我们和DSSD相比有较低的表现,但是我们的方式运行时是30FPS,DSSD只有12FPS。

5.结论

        本文中,为了提高小物体的检测精度,我们发表了在SSD中增加上下文信息和注意力机制的方法。使用这种方法,我们可以通过融合多尺度特征捕捉不同层中展现的上下文信息,通过应用注意力机制捕捉目标层中的上下文信息。我们的实验展现了和常规的SSD相比的物体检测的精度提高,尤其是达到了在小物体上的显著增强。

参考文献

[1] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2):303– 338, 2010.

[2] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg. Dssd: Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659, 2017.

[3] R. Girshick. Fast r-cnn. arXiv preprint arXiv:1504.08083, 2015.

[4] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 580–587, 2014.

[5] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In Advances in neural information processing systems, pages 2672–2680, 2014.

[6] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[7] J. Jeong, H. Park, and N. Kwak. Enhancement of ssd by concatenating feature maps for object detection. arXiv preprint arXiv:1705.09587, 2017.

[8] J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan. Perceptual generative adversarial networks for small object detection. In IEEE CVPR, 2017.

[9] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft coco: Com- ´ mon objects in context. In European conference on computer vision, pages 740–755. Springer, 2014.

[10] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.- Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In European conference on computer vision, pages 21–37. Springer, 2016.

[11] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016.

[12] J. Redmon and A. Farhadi. Yolo9000: better, faster, stronger. arXiv preprint, 2017.

[13] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015.

[14] S. Sharma, R. Kiros, and R. Salakhutdinov. Action recognition using visual attention. arXiv preprint arXiv:1511.04119, 2015.

[15] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.

[16] J. R. Uijlings, K. E. Van De Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International journal of computer vision, 104(2):154–171, 2013.

[17] F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, X. Wang, and X. Tang. Residual attention network for image classification. arXiv preprint arXiv:1704.06904, 2017.

[18] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In International conference on machine learning, pages 2048–2057, 2015.

 

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值