《Boundary-Guided Lightweight Semantic Segmentation With Multi-Scale Semantic Context》论文解读

期刊:TMM

年份:2024

摘要

  • 轻量级语义分割在多媒体应用中非常重要,如自动驾驶、机器人视觉和虚拟现实等。
  • 近年来,许多轻量级双分辨率网络被提出用于语义分割,但它们通常忽略了不同尺度的语义上下文和对象边界。
  • 本文提出了一种新的双分辨率轻量级网络BSCNet,它利用多尺度语义上下文和对象边界辅助信息来改善语义分割。
  • BSCNet设计了一个极轻量金字塔池化模块(ELPPM)来捕获多尺度语义上下文,并使用边界辅助融合模块(BAFM)来增强特征表示能力。
  • 实验结果表明,BSCNet在语义分割准确性和运行效率方面达到了最先进的水平。

Introduction

以往轻量级分割网络存在的问题

  1. 忽略多尺度语义上下文:许多轻量级网络在捕获上下文特征时依赖于单一尺度的线索,而正确分类图像像素不仅依赖于短距离的低级细节,还可能依赖于长距离的高级语义信息。

  2. 缺乏有效的特征融合策略:尽管一些高精度网络通过逐元素相加或连接的方式整合了中间卷积特征,但这种融合策略在表示多尺度上下文方面过于薄弱。

  3. 计算量大:一些尝试使用图像金字塔或自注意力机制来编码多尺度上下文的方法,由于计算量大,不适合轻量级语义分割。

  4. 忽略对象边界信息对象边界信息作为重要的辅助线索,在以往的一些网络中被广泛用于发展高精度分割网络,但在轻量级网络中很少考虑利用对象边界信息。

  5. 模型大小和计算成本:为了学习边界线索,一些方法需要设计额外的模块或子网络,这不可避免地导致模型大小和计算成本的大幅增加。

  6. 实时性能需求:许多现实世界的应用需要在线估计和实时决策,而高准确度网络往往涉及较大的模型尺寸和巨大的计算成本,不适合实时应用。

  7. 特征表示能力有限:在深层卷积层中,图像的细节信息往往被丢弃,导致特征表示能力有限,尤其是在处理小物体或复杂场景时。

  8. 缺乏有效的上下文信息编码:轻量级网络在设计时往往需要在准确性和效率之间做出权衡,这限制了它们编码上下文信息的能力。

主要贡献

  • 设计了一个轻量级金字塔模块ELPPM,以利用多尺度上下文表示和计算效率。ELPPM没有直接集成中间卷积特征或自注意力,而是采用了更强大的金字塔特征表示,逐步融合多尺度语义。尽管如此,ELPPM的计算成本很低,因为它只需要很少的模型大小和计算成本。
  • BSCNet采用边界线索作为轻量级语义分割的重要辅助。通过特征传播,BAFM显式地鼓励对象区域内的特征一致性,从而隐式地实现估计边界两侧的特征不一致。尽管边界线索已广泛用于高精度分割网络,但很少探索其用于轻量级语义分割。
  • 在三个广泛使用的语义分割数据集上测试了BSCNet: Cityscapes、CamVid和KITTI。实验结果表明,该方法在分割精度和运行效率方面取得了最先进的权衡。具体而言,BSCNet在三个数据集上分别取得了78.3%、79.8%和52.4%的mIoU,而对于1024×2048和960×760输入图像,模型大小仅为1.5 M,推理速度分别为96 FPS和319 FPS。

Method

BSCNet仍然继承了双分辨率架构,其中HRB保持了低层精细细节,而LRB捕捉了高层语义线索。除ELPPM和BAFM外,其他两种路径主要由一系列ECCM和两个BFM构成。ECCM可以以非常少的模型大小和较小的计算成本探索更大的感受野。另一方面,BFM通过跨分辨率的特征融合来加强两条路径之间的信息交换。

主要模块

  1. Efficient Compact Convolution Modules (ECCMs):ECCM是BSCNet的核心构建模块,采用多个深度卷积来扩大感受野,同时保持较小的计算成本。ECCM包含变换分支和恒等分支,利用紧凑的卷积和残差连接。

  2. Bilateral Fusion Modules (BFMs):BFM作为两个分支之间的桥梁,增强了HRB和LRB之间的信息交流。BFM通过交叉分辨率特征集成来加强信息交换。

  3. 金字塔池化模块 (ELPPM):ELPPM设计在LRB的顶部,使用金字塔特征表示来捕获不同尺度的语义上下文。ELPPM采用全局到局部的上下文融合策略,逐步整合邻近尺度的特征,而不是直接使用简单的连接操作。

  4. 边界辅助融合模块 (BAFM):BAFM使用估计的边界作为高级指导来帮助轻量级语义分割。它首先通过边界检测头预测二值边界图,然后通过整个对象区域传播信息,以增加同一对象的特征相似性,同时保持不同对象的特征区分性。

  5. 辅助监督头:为了学习更准确的特征,引入了辅助监督头来从浅层卷积层中学习。

 2.1 ECCM和BFM

(a) ECCM; (b) Stride ECM (s = 2); (c) BFM。

ECCM设计得非常轻量,例如,两个连续的3×3深度可分离卷积与一个5×5深度卷积具有相同的感受野,但参数数量更少。具体来说,ECCM只需要2×3×3=18个参数,而5×5深度卷积需要25个参数。 

BFM通过控制信息流,使得高分辨率的细节信息和低分辨率的上下文信息能够在网络中有效交换,从而提高分割性能。

2.2 ELPPM

本节介绍了利用计算效率和多尺度上下文表示的ELPPM。ELPPM采用简单而强大的分层特征金字塔表示多尺度上下文,便于以全局到局部的方式进行上下文融合。为了减小模型尺寸并加快计算速度,ELPPM采用深度卷积逐步融合邻域尺度的上下文特征。

 拓展阅读

自适应池化是一种特殊的池化操作,它可以将任意尺寸的特征图转换成预定尺寸的特征图,这在网络的最后几层非常有用,尤其是当需要将特征图的尺寸统一以便进行分类或其他操作时。自适应池化通常使用最大池化或平均池化作为其操作方式。

全局池化是一种特殊的池化操作,它将整个特征图的所有元素聚合成一个单一的输出值。这种池化通常用于提取整个特征图的全局信息,常用于语义分割、图像分类等任务中。

尽管ELPPM提供了强大的多尺度上下文表示能力,但其设计注重计算效率,只进行一次操作,并且避免了重复堆叠和使用较重的卷积核。

2.3 基于边界辅助的轻量级分割

尽管对象边界被广泛应用于现有的高精度语义分割网络,但很少在轻量级语义分割中探索对象边界。因此,本节重点介绍BAFM如何在对象边界的帮助下改善分割输出。

2.3.1 BAFM 

最近提出的具有边界辅助的分割网络大致可以分为两类。一种是利用边界辅助头引导内部特征,另一种是将二值边界引入分割网络。然后,利用二值边界作为高层语义指导,通过特征传播增强目标区分能力,但采用轻量级设计,受限于极少的模型参数和计算复杂度。

  • F_{S}:低层特征,包含更丰富的物体形状细节
  • F_{D}:高级特征
  •  F_{B}:表示一个单通道二值特征图,通过辅助边界监督头从F_{D}估计
  • 卷积特征融合块(CFFB)和边界引导特征传播块(BFPB)

CFFB:将深层特征和浅层特征结合起来,以增强特征的表达能力,并通过通道注意力机制突出重要的特征通道:特征融合+通道注意力。GAP:全局平均池化

BFFB:BFPB是BAFM(Boundary Auxiliary Fusion Module,边界辅助融合模块)的一个关键组成部分,它利用估计的边界信息来引导特征在对象区域内的传播。目的是增强属于同一对象区域的像素之间的特征相似性,同时保持不同对象区域间的特征区分性。

首先产生一个被屏蔽的边界感知特征\widehat{F_{M}},其中红色的像素表示估计的边界像素。由于特征传播必须遍历一个片段中的所有位置,如果我们从不同的方向传播特征,一个特定的像素将接收到不同的信息。为了提高计算效率,对\widehat{F_{M}}的特征进行水平和垂直双向传播,产生4个传播特征映射\widehat{F_{H}^{LR}}\widehat{F_{H}^{RL}}\widehat{F_{V}^{TB}}\widehat{F_{V}^{BT}},分别代表从左到右、从右到左、从上到下和从下到上的传播方向。

其中:

  • (x_{L},𝑦) 和 (x_{R},𝑦) 分别表示在垂直于当前位置 (𝑥,𝑦)的边界最左边和最右边的像素。 
  • (x,y_{T}​) 和 (𝑥,y_{B})分别表示水平于当前位置 (𝑥,𝑦)的边界最上边和最下边的像素。

整合四个方向的输出

 拓展阅读:

特征传播(Feature Propagation)是深度学习中一种常见的技术,特别是在语义分割任务中,用于增强特征图(feature maps)中同一对象区域内的像素特征的一致性。

特征传播的步骤

  • 初始特征:从卷积神经网络的前层获取初始特征图,这些特征图包含了图像的某些语义信息。
  • 传播机制:定义一种机制,使特征可以在特征图的像素之间传播。这可以是简单的像素邻域内的平均、加权平均或其他更复杂的依赖于上下文的传播规则。
  • 目标:传播的目标是增强同一对象区域内像素特征的相似性,同时保持不同区域间的差异性,这有助于提高分割的精度。

2.3.2 边界损失

 其中 P 和 B 分别代表二元边界预测及其相应ground truth。

Conclusion

本文提出了一种用于轻量级语义分割的 BSCNet,它利用了边界辅助和多尺度语义上下文。从分辨率的角度来看,ELPPM 采用金字塔池化结构来实现强大的表示来捕获多尺度上下文线索。此外,所提出的 BAFM 采用估计的对象边界作为高级指导来传播卷积特征,提高识别每个像素的辨别能力。ELPPM 和 BAFM 的计算效率都很高,因为它们需要更少的模型大小和计算成本。最后,我们介绍了整个 BSCNet 的详细架构。实验结果表明,BSCNet 在分割精度和在三个数据集上实现效率方面取得了最先进的结果:Cityscapes、Camvid 和 KITTI。此外,消融研究表明,ELPPM 和 BAFM 通过改变最近最先进的轻量级骨干网络非常简单和有效的即插即用模块。

  • 16
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值