https://www.jiqizhixin.com/articles/2018-08-03-19
面向目标检测任务的深度特征金字塔再组合
Deep Feature Pyramid Reconfiguration for Object Detection
该论文由腾讯AI Lab与清华大学合作完成。目前最好的目标检测器大多通过特征金字塔来学习多尺度表示从而取得更高的检测精度。然而,当前特征金字塔的设计在如何整合不同尺度的语义信息方面仍然不够高效。为此,本文在调研当前主流特征金字塔方法的基础上把特征金字塔转换为特征的再组合过程,创造性地提出了一种高度非线性但是计算快速的结构将底层表示和高层语义特征进行整合。具体而言,该网络由两个模块组成:全局注意力和局部再组合。这两个模块分布能全局和局部地去在不同的空间和尺度上提取任务相关的特征。重要的是,这两个模块具有轻量级、可嵌入和可端到端训练的优点。在基于SSD的框架上,该模型取得里比原始模型及其他变体方法明显更好的检测精度,而且没有牺牲实时的处理速度。
论文里采用了Squeeze-and-Excitation Networks(ILSVRC 2017 image classification winner; CVPR 2018 Oral https://github.com/hujie-frank/SENet)中的SE结构
https://github.com/hujie-frank/SENet/blob/master/models/SE-BN-Inception.prototxt
global attention里首先是squeeze,实现是 一个全局平均池化,然后是excitation阶段,实现是:两个全连接后接sigmoid 激活函数,第一个全连接后接relu函数,channel个数为c/16。第二个全连接的channel个数为c,然后再和X做channel-wise multiplication。caffe里用scale来实现。
local reconfiguration 实现是上图右边的模块。即三个卷积,分别是1*1,3*3,1*1。
For the lth level layer, the squeeze stage is formulated as a global pooling operation on each channel of X which has W × H × C dimensions。