A single-shot multi-level feature reused neural network for object detection(阅读笔记)

本文部分参考公众号文章:https://mp.weixin.qq.com/s/bjnGGRpnQmNN762y-aUwXQ

概述

  • 本文提出一种新颖的轻量化框架——多级特征重用检测器(multi-level feature reused detector——MFRDet)。
  • 该框架的检测精度优于两阶段系列框架。
  • 该框架可以向单阶段系列框架一样保持相当高的效率,但是不用使用非常深的卷积神经网络。
  • 该框架适用于深层和浅层特征图中的信息重用,在不影响检测器速度的前提下,提高了检测精度。

背景知识

In pursuit of higher precision, there are usually two strategies: One is exploring feature pyramid structures and the other relies on very deep powerful base networks.The second artifice causes amounts of calculation which makes them mire a low-speed dilemma.
为了追求更高的精度,通常有两种策略:一种是探索特征金字塔结构,另一种是依赖非常深且强大的基础网络。第二种方法会导致大量的计算,从而降低了计算速度。

Some of the two-stage models only select the final feature map to create region propose with different scales to predict multi-scale candidate targets.
一些两阶段模型只选择最终的一个特征图来创建不同比例的区域建议去预测多尺度候选目标。

However,the receptive filed in each layer is stationary, which could lead to the conflict between fixed receptive field and the targets at variable scales. Because of this conflict, target detection at extreme sizes is limited.
由于每层的感受野是固定的,这可能会导致固定感受野与目标在不同尺度上的冲突。极端大小的目标检测将会因为这种冲突而受到限制。

Feature pyramid network recommends a top-down approach to construct
feature pyramids combining deep and shallow feature maps. This top-down structure has accomplished high score of mAP in DSSD and Mask RCNN. But top-down structure layer by layer, which could not be efficient enough,will bring much extra computational cost when many layers to be combined together.
特征金字塔建议采用自上而下的方法,结合深层和浅层的特征图来构建特征金字塔。这种自上而下的结构在DSSD和Mask RCNN模型中获得到了高分。但是这种一层一层自上而下的结构不够有效,当许多层结合在一起时,就会产生额外的计算开销。

SSD and MS-CNN utilize different-scale feature maps within ConvNet layers to predict. However, the feature of small objects generated by shallow layers lacks enough semantic information, which will result in poor performance on small object detection.
SSD和MS-CNN在ConvNet层中利用不同尺度的特征图进行预测,如下图c。但是,浅层特征图生成的小目标特征缺乏足够的语义信息,这将导致小目标检测性能较差。

In deep ConvNet, shallow feature maps contain small receptive fields which are responsible for small targets, and deep feature maps will generate large receptive fields for large object detection. However, shallow features have less semantic information, which may impair the performance of small object detection. Multitude of modern detectors cannot obtain a excellent performance in small object for the unbalance of semantic information between shallow and deep feature maps.
深层ConvNet中,浅层特征图包含小感受野,主要对小目标负责。深层特征图产生大感受野,主要对大目标负责。然后,浅层特征的语义信息较少,可能会影响小目标的检测性能。由于深层和浅层特征图间语义信息不平衡的原因,许多现代检测器在小目标检测中无法取得良好的性能。

在这里插入图片描述

网络架构

在这里插入图片描述
上图是SSD的网络结构,SSD成功的引用了特征金字塔的网络结构,有效地提高了系统的性能。其中conv4_3在基本网络中负责小目标检测,conv8_2负责大目标检测。但是,SSD是直接从每一层生成结果,而不考虑深层和浅层之间的连接。高分辨率的特征图具有较少的语义信息,但包含大量的全局信息,低分辨率特征图只具有部分信息的高语义特征。因此,SSD既没有充分利用局部细节特征,也没有充分利用全局语义特征。

本文提出一种轻量级、高效的多级特征重用(MFR)模块,如图1d。该模块充分利用不同尺度的特征图,将深、浅特征融合一起,提高了检测性能。特征重用模块可以简单的解释为如下:
X t = Ψ t { T i ( x i ) }      x i ∈ S X f = Ψ r ( x t )      r ∈ R l o c , c o n f = Ψ l , c ( X f ) X_t=\varPsi_t\{T_i(x_i)\}\space\space\space\space x_i\in S \\ X_f=\varPsi_r(x_t)\space\space\space\space r\in R \\ loc,conf=\varPsi_{l,c}(X_f) Xt=Ψt{Ti(xi)}    xiSXf=Ψr(xt)    rRloc,conf=Ψl,c(Xf)
其中

  • S S S代表原始SSD的源层(包括conv4_3,conv5_3,fc7)和SSD层(包括conv8_2,conv9_2,conv10_2,conv11_2)。
  • T i T_i Ti是转换层,它的作用是将每个源层更改为相同的分辨率。
  • Ψ t \varPsi_t Ψt的作用是重用转换后的的特征图,生成新更新的重用特征块 X t X_t Xt
  • Ψ r \varPsi_r Ψr负责产生金字塔新特征图 X f X_f Xf X f X_f Xf参与预测fc7,conv8_2,conv9_2,conv10_2,conv11_2。
  • 最后,损失功能 Ψ l , c \varPsi_{l,c} Ψl,c用于预测 X f X_f Xf中的位置损失和置信度损失。

S S S的选择:

  • 传统的SSD网络,conv4_3,fc7和其余四个SSD层用于预测。六个特征图的尺包括: 38 × 38 38\times38 38×38 19 × 19 19\times19 19×19 10 × 10 10\times10 10×10 5 × 5 5\times5 5×5 3 × 3 3\times3 3×3 1 × 1 1\times1 1×1
  • 尺寸较小的特征图中的语义信息在转换尺寸后对检测效果的提升仍有帮助。
  • 六个预测层和conv5_3用作source layers来被重用。
  • 从下表可以得出,重复使用conv3_3将会减少检测精度。高分辨率的特征图没有足够多高水平的语义信息,因此不再重复使用他的信息。
    在这里插入图片描述

T i T_i Ti的转换策略:

In conventional SSD, shallow layer conv4_3 whose scale is 38×38 with little
semantic information is responsible for small target identification. The layer of conv4_3 is set as basic layer that needs to contain more deep layer semantic information.

传统SSD,浅层conv4_3的尺度是38×38,语义信息较少,主要负责小目标的识别。conv4_3层被设置为需要包含更深层语义信息的基本层。

Firstly, Conv 1×1 is applied to each of source layers to decrease the feature
dimension.

首先,对每个源层应用Conv1×1来减小特征尺寸。

Then, we put layers whose scales are smaller than 38×38 (four SSD_layers and fc7 layer) into the same size of 38×38 by bilinear interpolation after the Conv 1×1 layer.

然后,在Conv1×1层后,通过双线性插值(bilinear interpolation)将尺度小于38×38的层(四个SSD_layers层和fc7层)放入相同大小的38×38中。

In this way, all the source features are converted to the same size.

这样,所有的源特性都会转换为相同的大小。

Ψ t \varPsi_t Ψt的选择:

New transformed feature maps are created after the procedure of conversion strategies T i T_i Ti. They are conv4_3’, conv5_3’, fc7’, conv8_2’, conv9_2’, conv10_2’ and conv11_2’.

在转换策略 T i T_i Ti的过程完成后,创建了新的变换特征图。它们是conv4_3’、conv5_3’、fc7’、conv8_2’、conv9_2’、conv10_2’和conv11_2’。

Two methods can merge newly transformed feature maps together, i.e., concatenation and element-sum. By experimental verification, both of two
approaches can receive a decent result. From Table1, we can learn that concatenation seems more suitable for our model(Fig. 3).

有两种方法可以将新转换的特征映射合并在一起:concatenationelement-sum。通过实验验证,这两种方法都能得到良好的结果。从表1中,可以了解到concatenation似乎更适合我们的模型(图3)。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值