Context-Integrated and Feature-Refined Network for Lightweight Object Parsing
创新点
- 提出一个轻量型的CIFReNet模型结构,由 Long-skip Refinement Module (LRM) 和 Multi-scale Context Integration Module (MCIM) 组成,模型多次使用全局平均池化来添加全局信息。
- LRM 模块能够使空间信息在高维和低维更加容易得传播,并且使用通道注意力机制提高低维的特征提炼。
- MCIM 模块由三个级联的 DSP 模块组成,它能够编码多尺度的上下文信息和提高视野的范围。
问题
- 为语义分割任务提出一个能够在准确度和速度之间进行平衡的模型。
方法
Backbone
模型的 Backbone 采用轻量型网络 MobileNet V2,使用扩张卷积(Dilated Convolutions)取代后三层(Stage5, Stage6, Stage7),扩张率为{3, 5, 7}。
CIFReNet
CIFRNet 模型如图所示。红色框为 LRM 模型,蓝色框为 MCIM 模块。输入图片产生特征图,从 Stage3 开始经过 LRM 模块,Stage7 开始经过 MICM 模块,再进行上采样输出结果。
LRM
-
Stage3 处将特征图通过深度可分离卷积(3x3 Depthwise Separable Convolution)转为高维特征图;
-
Stage6 处通过全局平均池化(Global Average Pooling,GAP)将高维特征图转为特征向量,在通过多层感知机(Multi-Layer Perception,MLP)获取降维特征向量;
-
最后将 1 和 2 的结果进行乘法运算再与 Stage6 的特征图进行相加。
DSP
DSP结构如图所示。
-
将特征图通过分组点卷积(Group Point-wise Convolution)降低 r 倍的通道数;
-
分别将特征图通过 n(图中为4) 个深度可分离卷积,每个深度可分离卷积采用扩张卷积,扩张率位 di 和经过自适应全局平均池化(Adoptive Global Average Pooling );
-
将两步结果依次进行 Concat 、双线性差值(Bilinear Interpolation)和通道混合(Channel Shuffle)操作;
-
将 DSP 的输入通过残差连接将 3 的结果进行相加输出结果。
MICM
在 MCIM 模块中每个 DSP 都有不同的扩张率,DSPs 关注小目标,DSPm 关注中等目标,DSPl 关注大目标。
- Stage7 的输出输入到 DSPs 中, DSPs 的输出输入到 DSPm 中,DSPm 的输出输入到 DSPl 中;
- 每个 DSP 的输出都进行相加;
- Stage7 的输出分别进行 GAP 和双线性差值;
- 最后将 2 和 3 的结果进行 Concat 操作。