实时语义分割学习笔记07 Bilateral Network:剩余U块和双重引导注意的双边网络

本文探讨了双边网络在实时语义分割中的局限性,提出了一种基于双引导注意模块的改进方法,通过有效融合高分辨率和低分辨率分支,解决性能瓶颈问题。该方法结合了单分支编码器-解码器结构的优点,同时降低了计算复杂度,提高了分割质量和速度。
摘要由CSDN通过智能技术生成

一、提出的问题:

1、双边网络触及性能瓶颈

   问题:近年来提出了一种分支结构,它将空间信息和语义信息分开处理,使得模型可以由两个不太重的网络组成。然而,融合两种不同尺度特征的过程成为目前许多双分支模型的性能瓶颈。

   解决:提出一种基于注意力计算的双分支体系结构的融合机制,能够有效地提高系统的融合效率。 具体地说,我们使用我们提出的双引导注意(DGA)模块,用注意力的计算来代替一些多尺度变换,这意味着我们只使用几个接近线性复杂度的注意层,就可以获得与常用的多层融合相当的性能。

2、单分支编解码器结构问题

   单分支问题:大多数编码解码方法使用逐层下采样和特征融合操作来提取语义特征,这意味着整个过程在单个分支中开始和结束。

   双分支优势:双 分支方法重新考虑了低层细节和高层语义,它们建议空间细节和上下文语义可以分开提取。不仅比单分支编码器-解码器架构实现了更好的边界和小对象分割性能,而且实现了更快的推理速度。

二、 相关工作

1、单分支编码器-解码器结构

  经典的编码器-解码器为主要结构,它们使用逐层下采样和特征融合操作来提取语义特征,这意味着它们同时编码低级细节和高级语义。ESPNet提出了使用不同膨胀率的并行卷积来增加接收场,以提高解码器的效率。EDANet提出了EDA模块,输入图像和输出特征在更大的块内密集连接,以便信息可以在更宽的感受野中共享。DFANet采用了深度多尺度特征聚合和轻量级的深度可分离卷积,有效地细化了高级和低级特征。尽管上述方法用于实现最先进的性能,当涉及到较高分辨率的输入图像时,大多数方法以较慢的推理速度运行。

2、双分支结构

   不同于单一分支架构的方法,双分支架构旨在通过在不同尺度独立提取特征来保留网络早期提取的高分辨率细节。

   BiSeNet提出了一个由上下文路径和空间路径组成的双分支架构。上下文路径基于一个紧凑的预训练骨干网络,旨在提取上下文信息,而空间路径利用少量卷积层专注于空间细节。BiSeNetV2进一步简化了网络结构,引入了双边引导聚合以替代BiSeNet中的特征融合模块,并设计了完全手工制作的语义分支,使网络更加高效。

  设计在网络早期共享一部分网络参数,允许在网络中间添加许多交互,如DDRNet提出的双边融合。然而,它们仅仅避免而非解决了将两个分支的特征融合实际上成为许多双分支模型性能瓶颈的问题。

以上的方法中,分支之间缺乏有效的特征交互,部分导致精度下降。

3、注意力机制

   用于解决神经网络中的局部问题,通过关联局部信息和全局信息,以选择需要更多关注的信息。

   DANet提出了双重注意力,使用位置注意力模块集中注意力于空间信息,同时使用通道注意力模块关联通道信息。然而,由于通道注意力模块具有较高的计算成本

   为了解决计算成本的问题,CCNet仅考虑了空间信息,提出了交叉关注模块,以查找同一行或列中其他位置的像素之间的连接。这减少了计算量,使得可以堆叠多个注意力模块。

三、 论文方法

1、高分辨率分支

   负责空间细节。使用宽通道和浅层可以提供足够的空间信息。使用3×3卷积组成的三个卷积层进行通道扩展,并且在每层之后进行最大池化以将输入图像快速下采样到1/8的比例。需要关注局部细节并且还需要控制计算开销。

1、低分辨率分支

   支负责语义信息,来自U2-Net的残余U块。RSU块是高度为L的类似U-Net的对称编码器-解码器结构。输入特征图和输出特征图具有相同的分辨率。低分辨率分支中,线性堆叠了六个不同大小的RSU模块。因此,我们的低分辨率分支由六个阶段组成,每一阶段由一个配置良好的RSU块填充。在每个RSU块之后,我们连接一个步长为2的最大池化层,除了最后一级。最后一级将输出1/32分辨率的特征图,在它之后连接一个上下文嵌入模块来嵌入全局上下文信息。然后特征图将被2×上采样并相加到stage 5的输出。

在这里插入图片描述
   粉色虚线框为高分辨率分支,蓝色虚线框为低分辨率分支,以及橙子虚线框为双重引导注意力模块。立方体中的数字是特征图大小与输入分辨率的比例

在这里插入图片描述
其中:
   C i n , C o u t C_{in},C_{out} CinCout表示输入和输出通道,L是编码器中的层的数量,M表示RSU的内部层中的通道的数量。

3、双重注意力

  受外部注意力(EA)启发,线性复杂度注意力机制引入实时语义分割,并且不会导致性能下降。 EA进行了一些修改,并将其命名为引导注意力(GA)。在此基础上,提出了双重引导注意力模块,

  首先使用并行结构从高分辨率下采样1/8图像分辨率的输出特征图,分辨率分支通过一个3×3的卷积层被放大到其自身大小的一半,并通过线性插值将来自低分辨率分支的1/16图像分辨率的特征图上采样到其自身的两倍。然后两个特征图将它们自己连接到另一个分支的输出。在concat操作之后,我们得到了两个分辨率不同但通道数相同的特征图,分别用于引导注意力计算。我们将在后面介绍GA的技术细节,但我们需要知道的是,GA的输出与具有相同分辨率的分支的输出具有相同的通道数。这主要是通过GA最后阶段的Dropout层来实现的。 因此,我们直接将GA的输出与每个分支的输出在相应的分辨率上相加,实现一个残差结构,最后对低分辨率的特征图进行两次上采样,并与高分辨率的特征图拼接,然后将最终的特征图送入分割头,得到分割预测。 图4中示出了引导注意力的细节。给定输入特征图F ∈N ×N,其中N是图像中的像素的数量,d是特征维度的数量。
在这里插入图片描述

  • 23
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值