论文:Single-Shot Object Detection with Enriched Semantics
论文链接:https://arxiv.org/abs/1712.00433
Detection with Enriched Semantics(DES)是CVPR2018的文章,基于SSD做改进,也是为了解决SSD中对于小目标物体的检测效果不好的问题,因为SSD算法对小目标的检测只是利用了浅层的特征,并没有用到高层的语义特征。因此这篇文章的出发点就是为了增加用于检测的feature map的语义信息,主要的措施包括:1、引入segmentation module用于得到attention mask,从而提高low level的feature map的语义信息。2、引入global activation module用于提高high level的feature map的语义信息。实验效果不错,在VOC2007数据集上,DES512能达到81.7的mAP,而且在Titan X上的速度是31.7FPS(batch设置为8,不过比相同大小输入和相同特征提取网络的SSD算法慢一些)。
Figure1是DES算法的整体结构,主要包含3个部分:1、detection branch。这部分基本上和SSD没有太大差别。2、segmentation module。这部分主要针对low level的feature map,用来增强low level的feature map的语义信息。具体做法就是以conv4_3和bounding box level的segmentation ground truth作为输入,bounding box level的segmentation ground truth就是Figure1中左下角那个黑色中带黄色的矩形,那个黄色区域的边框原来是bounding box的ground truth,这里将其内部区域当作segmentation的ground truth。3、global activation module。这部分主要针对high level的feature map,也是类似attention的思想,最终增强high level的feature map的语义信息。