【论文笔记】 BSSNET

摘要

        尽管语义分割方法迄今为止已经取得了显着的进步,但其较长的推理过程限制了其在实际应用中的使用。 最近,已经提出了一些二分支和三分支实时分割网络,通过添加分支来提取空间或边界信息来提高分割精度。 对于提取空间信息分支的设计,保留高分辨率特征或添加分割损失来引导空间分支是提取空间信息的常用方法。

        然而,这些方法并不是最有效的。 为了解决这个问题,我们将空间信息提取分支设计AutoEncoder结构,它允许我们在AutoEncoder的编码和解码过程中提取图像的空间结构和特征。 边界、语义和空间信息都对分割任务有帮助,与双分支网络中两类信息的融合相比,有效融合这三类信息可以获得更好的特征表示。

         然而,现有的三分支网络尚未对这方面进行深入的探索。 因此,本文基于此出发点设计了一种新的三分支网络。 此外,我们还提出了一种称为统一多特征融合模块(UMF)的特征融合模块,它可以有效地融合多个特征

介绍

也是可以积累的素材挺多的这里不写了

        受PIDNET这种新的三分支架构启发我们,提取边界、语义和空间信息有助于图像分割。 如果这三类信息能够有效地融合,与双分支网络中两类信息的融合相比,可能会带来更优越的特征表示。 然而,现有的三分支网络尚未深入研究这方面。 此外,当前多分支实时分割方法中设计空间信息分支的主流方法仍然涉及保留高分辨率特征或引入分割损失。 不幸的是,这些提取空间信息的方法并不是最有效的,需要进一步的探索和改进。

        受启发与AutoEnconder   受 AutoEncoder [22] 的启发,空间分支使用 AutoEncoder 模块,采用无监督方法来提取空间信息。 具体过程是通过学习将输入图像压缩为低维编码表示,并在解码阶段将其恢复为与原始图像相似的输出。 通过对原始图像进行编码和解码,从中提取图像的空间结构和特征

        为此,我们提出了一种称为 BSSNet 的新型实时语义分割网络,其旨在通过有效提取和合并边界、语义和空间信息来提高分割精度。

         该网络从主干网络开始,分支为三个子网络:边界分支、语义分支和空间分支。 边界分支通过构造边界损失函数来提取边界信息,而语义分支通过增加网络深度和通道数来提取语义信息。 受 AutoEncoder [22] 的启发,空间分支使用 AutoEncoder 模块,采用无监督方法来提取空间信息。 具体过程是通过学习将输入图像压缩为低维编码表示,并在解码阶段将其恢复为与原始图像相似的输出。 通过对原始图像进行编码和解码,从中提取图像的空间结构和特征。

         此外,本研究提出了一种称为统一多特征融合模块(UMF)的新颖模块,能够以较低的计算成本有效地融合边界、语义和空间信息。 这一点尤其重要,因为现有的特征融合方法,如 AFF [25]、SKNet [26]、Resnest [27] 和 Residual Attention [28] 往往具有较高的计算成本,并且受到可融合特征数量的限制 。 所提出的 UMF 模块提供了一种新的特征融合方法,有助于提高分割精度。

         在BSSNet的设计过程中,我们使用GPUefficient ResNet残差块[20]作为主干网络的基本构建块来加速推理速度。 此外,考虑到边界和空间分支需要保持高分辨率,我们最小化这两个分支中的卷积运算数量以降低计算成本。 该研究为实时语义分割任务的研究和应用提供了新的思路和方法。

作者主要贡献

1>提出了一种新颖的用于实时分割的三分支网络,它分别提取边界、语义和空间信息。

2>将自动编码器[22]引入实时语义分割领域来解决空间信息提取问题。 • 我们提出了统一多特征融合模块(UMF),它可以以较低的计算成本有效地融合多个特征,并且可以轻松集成到其他模型中。

3>与其他实时分割网络相比,我们新颖的 BSSNet 在推理速度和分割精度之间实现了最佳权衡。 值得注意的是,BSSNet-T 在 Cityscapes 数据集上无需使用加速工具即可以 115.8 FPS 的速度实现 78.8% mIoU 和 78.3% 的加权得分。

相关工作

分四个方面来写的 后两个方面可以看一下

A. Generic Semantic Segmentation     B. Real-Time Semantic Segmentation

C. Feature Fusion Module  这个我会写专门的专题

D. AutoEncoder

AutoEncoder [22] 是一种无监督学习模型,它通过编码和解码过程学习输入数据的紧凑表示。 编码器将输入数据压缩为低维特征向量,解码器将特征向量重建为与原始输入相似的输出数据。 目标是最大限度地减少重建错误并保留重要的输入数据信息。 编码过程中得到的低维特征向量包含丰富的空间结构和原始图像特征,可以从以下两个角度进行分析: 

(a)编码和解码结构:自动编码器将输入图像编码为较低维的表示,然后将该表示解码为与原始图像大小相同的输出图像。 因此,解码过程必须依赖于编码过程中空间信息的有效保留,才能恢复出可识别的输出图像。

(b) 局部感受野属性:AutoEncoder 通常使用 CNN 作为基本构建块,CNN 的一个关键特征是局部感受野,它允许网络层捕获输入数据的空间局部性,从而使 AutoEncoder 能够学习 并提取原始图像中的空间模式和结构。

在这项工作中,我们将BSSNet的空间信息提取分支设置为AutoEncoder结构,图2展示了这个过程。

方法框架

        我们将介绍BSSNet的总体架构,然后分别介绍统一多特征融合模块(UMF)、轻量级统一注意力融合模块(LUAFM)和Booster Training Strategy。

A. Overall Architecture for BSSNet

     提出了一种新的三分支网络结构BSSNet,以更有效地提取这三种互补类型的信息。如图3所示。该结构在stem层之后分裂为三个分支:边界分支负责解析 边界信息,语义分支负责解析语义信息,空间分支负责解析空间信息。 这三个分支通过UMF模块合并它们最终的特征信息。 另外,边界和空间分支的深度设置为较浅且具有较高的分辨率,而语义分支的深度设置为较深且分辨率较低。 通过深化和扩展模型可以生成BSSNet家族(BSSNet-T,B)。 接下来,我们将对边界、语义和空间分支进行详细介绍。

1>边界分支:我们受到STDCSeg [39]和PIDNet [21]的启发,设计了用于提取边界信息的边界分支,如图3(a)所示。 边界分支有两个输入部分:一个来自主干层的特征,另一个来自语义分支的E1阶段。 这两个特征部分通过LUAFM模块进行融合,然后将融合后的特征输入到B2中得到最终的边界信息。 值得注意的是,边界分支没有进行下采样操作。 我们将边界识别头放置在LUAFM的输出上,这可以指导边界分支学习更多的边界信息。 此外,我们使用加权二元交叉熵损失来解决边界检测中的不平衡问题。

2>语义分支:对于我们的BSSNet-T和BSSNet-B模型,我们使用PIDNet-S和PIDNet-M的I分支作为语义分支骨干网络。 主干网络中每个阶段的结构由多个ResNet[20]BasicBlock和Bottlenecks组成。 与 PIDNet [21] 相比,我们利用 U 形架构更好地提取多尺度信息,并将 PAPPM 模块集成到所有版本的 BSSNet 中以降低计算成本。 受 PP-LiteSeg [47] 的启发,我们在 U 形结构的解码阶段采用通道减少策略来提高推理速度。 为了进一步降低计算成本,我们利用 LUAFM 模块作为解码阶段的融合模块。 图 3(a) 说明了我们模型的结构。

3>空间分支:空间信息对于语义分割至关重要,受自动编码器[22]的启发,本文通过构造自动编码器对输入图像的空间信息进行编码,该自动编码器可以以无监督的方式学习

如图3(a)所示。 具体来说,我们使用 LUAFM 模块融合 Spatial 分支和 ConvModule 的输出特征,并将融合结果输入到 P2 阶段。 我们在LUAFM模块的输出位置添加一个Spatial头,如图3(b)所示。 Spatial head 输出的形状为 B × 3 × H × W,与输入图像的形状相同。 我们使用L1 Loss来计算Spatial head的输出与输入图像之间的空间损失,从而通过构建AutoEncoder来引导网络学习空间信息。

Spatial分支的计算可以表示为:X表示输入图像,fenc和fdec分别指编码和解码函数。 这些函数是通过组合卷积层、批量归一化和 ReLU 激活来获得的。 H表示编码后的特征,X^表示解码后的图像。 sp_loss表示重建损失。

B. Unified Multi-Feature Fusion Module

 特征融合模块对于提高分割精度至关重要。 除了常用的逐元素求和和串联方法之外,还提出了其他几种方法,例如PIDNet[21]的bag模块、PPliteSeg[47]的UAFM模块和BiSeNetV2[18]的BGA模块 。 然而,这些融合方法的可扩展性不足以融合任意数量的特征,并且有些可能不适用于其他模型。

基于上述观察,受 PP-LiteSeg [47] 的启发,我们提出了一个统一多特征融合模块(UMF),它允许融合无限数量的特征,同时也是一个即插即用的模块 这很容易扩展到其他模型,

如图 4 所示。给定多个特征 P1 ∈ RC×H×W、P2 ∈ RC×H×W 和 P3 ∈ RC×H×W,我们首先执行平均值和最大值 对每个特征沿通道维度进行操作,每个特征生成两个特征,维度为1×H×W。然后将这六个特征沿通道维度连接起来,得到Fcat ∈ R6×H×W。 然后对Fcat进行卷积、sigmoid、分割操作,得到w1 ∈ R1×H×W,w2 ∈ R1×H×W,w3 ∈ R1×H×W。 然后将P1、P2、P3分别乘以w1、w2、w3,然后相加进行融合。我们可以用方程的形式来描述上述过程。

 

 C. Lightweight Unified Attention Fusion Module

为了进一步提高特征融合的有效性,PP-LiteSeg[47]提出的UAFM框架取得了良好的分割精度。

然而,为了匹配高分辨率特征和低分辨率特征的通道数,UAFM选择将低分辨率特征的通道数映射为与高分辨率特征的通道数相同。 此外,UAFM 模块末尾有一个卷积运算,用于平滑融合的特征。 这引入了一定的计算成本,限制了轻量级模型的速度。 因此,我们对UAFM模块进行了修改,使其更加轻量级,同时又不影响分割精度,如图5所示。由于高分辨率特征(Fhigh)的通道数相对较大,因此我们将其压缩到同一通道 通过卷积运算得到的数字作为低分辨率特征(Flow)。

我们还删除了用于特征融合平滑的卷积层,有效降低了计算成本。 这种修改后的特征融合模块称为 Light UAFM (LUAFM),并已成功应用于我们的 BSSNet-T 和 B 模型。

D. Booster Training Strategy

Booster训练策略对于训练阶段的网络优化是有效的,BiSeNetV2[18]和STDCSeg[39]都添加了多个辅助头来优化骨干网络的不同阶段。 然而,确定每个辅助头的重量往往需要大量的实验才能确定。 基于此,SFNet[7]利用级联深度监督学习的策略解决了这个问题。 为了确保与其他实时模型的公平比较,我们仅使用简单的附加监督训练策略,如图3(a)所示。 我们只在位置 E1 和 E2 添加辅助头,遵循 STDCSeg [39] 中每个辅助头的权重设置 1。

消融实验

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值