BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation
创新点
- 提出 BiSeNet 模型;
- 模型中 Spatial Path(SP) 能够保存空间信息产生高分辨率的特征图,Context Path(CP) 获得更加充分的感受野;
- Attention Refinement Module (ARM) 融合 SP 和 CP 所产生的特征图,Feature Fusion Module (FFM) 使用通道注意力提炼特征图。
问题
- 为解决语义分割任务中轻量型模型中空间信息损失和感受野受限问题。
方法
BiSeNet
BiSeNet模型如图所示。为保存更多的空间信息使用 SP 进行下采样。
SP 共包含三层,每层均使用步幅为 2 的下采样,以及Batch Normalization(BN) 和ReLU,SP 输出为原图的 1 8 \frac{1}{8} 81 大小的特征图。
使用CP来保证足够大的感受野。
CP 使用 Xception 轻量型模型作为 Backbone 快速地提取特征图,分别在下采样16倍和32倍处所产生的特征图输入到 ARM 模块中。
ARM
ARM模块结构如图所示。ARM用来细化每个阶段的特征。
ARM 使用全局平均池(Global Pool)来捕获全局上下文并计算注意力向量来指导特征学习,所产生的计算量可忽略不计。
FFM
由于 SP 的输出特征是低级别的,而 CP 的输出特征是高级别的。因此使用 FFM 来融合这些特征。
首先将 SP 和 CP 的输出特征连接起来,然后我们利用 BN 来平衡特征的尺度。接下来,我们将连接的特征汇集到一个特征向量中并计算一个权重向量,这个权重向量可以对特征进行重新加权,相当于特征的选择和组合。