《SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates 》

会议:CVPR2024

代码:https: //github.com/serdarch/SERNet-Former

论文:《SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks》

摘要

这篇研究论文提出了一种用于语义分割的高效残差网络架构,称为SERNet-Former。该架构旨在解决现有最先进方法在语义分割中的效率问题,特别是融合全局和局部上下文的语义信息的挑战。作者基于卷积神经网络(CNN)在语义分割中的成功和遇到的问题,提出了一种编码器-解码器架构,其中包含独特的高效残差网络EfficientResNet。该网络利用注意力提升门(AbGs)和注意力提升模块(AbMs)来融合等变和基于特征的语义信息,并与编码器中全局上下文的输出尺寸相匹配。此外,解码器网络通过额外的注意力融合网络(AfNs)得到了发展,这些网络的设计灵感来自于AbM,旨在通过在解码器部分部署额外的卷积层来提高语义信息一对一转换的效率。该网络在具有挑战性的CamVid和Cityscapes数据集上进行了测试,并且提出的方法在残差网络上取得了显著的改进。据作者所知,SERNet-Former在CamVid数据集上达到了最先进的结果(平均IoU为84.62%),在Cityscapes验证数据集上取得了具有挑战性的结果(平均IoU为87.35%)。

拟解决的问题: 研究旨在提高语义分割方法的效率,特别是解决计算成本增加的问题,以及如何有效地融合来自全局和局部上下文的语义信息。

创新之处

  • 提出了一种新的高效残差网络EfficientResNet,作为编码器网络的一部分,通过注意力提升门(AbGs)和模块(AbMs)来增强特征融合。
  • 解码器网络通过受AbM启发的额外注意力融合网络(AfNs)得到改进,这些网络旨在提高解码过程中语义信息转换的效率。
  • 该网络在CamVid和Cityscapes数据集上取得了最先进的结果,证明了其有效性。

方法

  • 利用编码器-解码器架构,其中编码器部分采用EfficientResNet,结合了AbGs和AbMs来提升特征融合。
  • 解码器部分引入了AfNs,以提高在上采样过程中处理丰富语义信息的效率。
  • 通过跳跃连接(skip connections)将编码器和解码器的多尺度信息融合,以提高整体网络性能。
SERNet-Former的示意图。(a) Attention-boosting Gate (AbG) 和 Attention-boosting Module (AbM) 融合到编码器部分。(b) 在解码器中引入的注意力融合网络 (AfN)

Efficient-ResNet: 编码器部分

  • 注意力提升门(AbG):目的是提高在ReLU层中可能未被激活的通道语义信息的激活概率。AbG通过其操作可以增加特征丰富的映射,这些映射可能在常规的残差网络架构中未被激活。使用Sigmoid函数作为操作符,以增加获取和处理等变、通道和基于特征的丰富语义信息的可能性:

其中 i\left ( BN\left ( conv_{n} \right ) \right ) 表示第 n 个卷积块上最后一个卷积层和以下批量归一化层的输出。 

  • 注意力提升模块(AbM):AbM通过元素级加法,在转换和调整输入大小后,将AbG获取的基于特征的语义信息与残差网络的空间上下文融合。AbM作为注意力机制和数学运算符,用于激发和融合特征丰富的语义信息。

基于扩张的可分离卷积网络(DbN)

  • DbN用于在编码器和解码器之间增加搜索、识别和比较局部、基于通道的丰富语义信息的概率。通过使用不同的扩张因子(例如12、16和18)的卷积层,将编码器的输出分解成更小的特征映射。

解码器部分

  • 注意力融合网络(AfN):AfN的设计灵感来自于AbG和AbM,目的是提高解码器部分处理信号的效率,将语义信息与编码器部分的全局和局部上下文进行转换和融合。它还旨在增加将语义信息存储在解码器中的能力,以解决更小更简单的残差网络的局限性。
  • 分别设计了 AFN 并与其他卷积层融合,如图 2 (b) 所示。通过深度连接层连接 AFN 的乘积来收集来自不同步幅的反卷积层的空间和通道上下文信息(图 2)。在这方面,跳过连接用于提高网络从编码器获取空间信息的效率,并在上采样操作期间与基于通道的特征连接。

跳跃连接(Skip Connections)

  • 跳跃连接被设计用于在解码器部分有效地融合多尺度特征映射,通过将编码器的空间信息与解码器中的通道特征在上采样操作中进行连接。

损失函数和像素分类层

  • 使用交叉熵损失函数通过像素分类层来计算网络的语义分割性能。损失函数考虑了每个类别的类权重,这些权重在实验数据集中分别计算。

其中 T 表示目标,x 是数据集中标记类 C 中的类。因此,Y 代表预测像素。在实验中,像素分类层是通过分别计算每个数据集中每个标记的类的类权重来执行的。然后,部署交叉熵函数使用公式计算网络预测和地面实况之间的损失。

结论

SERNet-Former通过开发一种新的高效残差网络架构,成功地解决了语义分割中的多尺度问题,并通过融合不同上下文的语义信息,提高了网络的效率和性能。该网络在CamVid和Cityscapes数据集上取得了优异的结果,证明了其在语义分割任务中的潜力。作者还指出,Efficient-ResNet和SERNet-Former还有进一步改进和测试的空间,特别是在不同的分类任务和硬件资源受限的实际应用中。

  • 19
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值