1.动机
- 一些检测器通常包含了额外的 stages,处理多尺度问题
- 较大的下采样因子会使感受野增大,空间分辨率降低,利于分类,不利于定位
- 传统的 backbone 大多是针对做分类的
常见的backbone:
①Image Net
②AlexNet—为了减少计算量,增加有效的感受野,以32步长下采样 feature map
③VGG Net—以3*3卷积,构建更深的网络,也是32 strides
④Google Net 一 用起始块(inception block)来包含更多种特征
⑤Res Net一采用瓶颈结构设计,每个 Stage 都执行余数求和
⑥ResNext/Xeption—用群卷积层取代了传统的卷积层, 减少参数的同时提高了精度
⑦Dense Net 密集地连接卷积层,进一步减少参数,同时保持精度
⑧D RN (Dilated Residual Network )—用更少的步长来提取特征, 在语义分割上效果显著。
2.贡献点
创新
① 有 extra stages (像 FPM 和 Retinanet中),用于多尺度
② 深层仍保持高空间分辨率,利于定位
优点
既有高分辨率的 feature maps,又有大的感受野
利用了一个低复杂度的扩张形瓶颈结构
3.方案
F.B是传统分类主干网络,每次以stride2对feature map 进行下采样;F.A是Fpn网络,在原本下采样基础上进行上采样:它用深层检测大目标,浅层检测小目标,但是浅层含有的语意信息少,需要从深层上采样获得小物体的语意信息,但是,如果小目标的信息在下采样过程中就丢失了,那么上采样也采样不到
问题
① stages 数量不同
② 大物体观度低
③ 小物体不可见
4.DetNet Framework
①stage1-stage4和ResNet50都一样, stages 5开始不一样,P6 被用来检测大目标,stage 4之后仍保持16*下采样的空间分辨率
② 每个 stage 一开始先采用具有从1×1卷积投影的扩张型瓶颈
③ 将 dilated bottleneck 作为基本的网络板块,以有效地扩大感受野(dilated 卷积耗时-在 stage5和stage6中保持相同的channels)
5.实验方法和结果