CenterMask : Real-Time Anchor-Free Instance Segmentation

论文地址: https://arxiv.org/abs/1911.06667

GitHub (PyTorch): https://github.com/youngwanLEE/CenterMask
本文提出了一种简单但有效的无锚实例分割方法,称为CenterMask,它在无锚单级对象检测器(FCOS)上添加了一个新的空间注意力引导掩码(SAG掩码)分支,与mask R-CNN具有相同的特点。插入FCOS对象检测器后,SAG Mask分支会在每个检测到的框上预测一个分割掩码,该掩码带有空间注意力特征图,有助于聚焦信息像素并抑制噪声。本文1还提出了一种改进的主干网VoVNetV2,它具有两种有效的策略:
(1)残差连接,以缓解较大V oVNet的优化问题;
(2)有效压缩激励(eSE),以处理原始SE的通道信息丢失问题。使用SAG Mask和VoVNetV2
在这里插入图片描述
因此,本文设计了一个简单但高效的efficient anchor-free单阶段实例分割,称为CenterMask,它以与mask R-CNN相同的方式,在更高效的单阶段anchor-free对象检测器(FCOS)中添加了一个新的空间注意力引导的掩码分支。上图显示了CenterMask的整体架构。插入FCOS对象检测器,本文的空间注意引导mask(SAG mask)分支从FCOS检测器中获取预测框,以预测每个感兴趣区域(RoI)上的分割mask。SAG mask中的空间注意模块(SAM)帮助mask分支关注有意义的像素,并抑制无信息的像素。
在为mask prediction提取每个RoI上的特征时,应根据RoI比例分配每个RoI pooling。mask R-CNN提出了一种新的赋值函数,称为ROIALIGN,它不考虑输入尺度。因此,作者设计了一个尺度自适应RoI分配函数,该函数考虑了输入尺度,是一种更合适的单级目标检测器。还提出了一种基于VoVNet的更有效的主干网VoVNetV2,由于其一次性聚合(OSA),它比ResNet和DenseNet具有更好的性能和更快的速度。
在上图(底部)中,发现将OSA模块堆叠在VoVNet中会导致性能下降(例如,VoVNetV1-99)。作者认为这种现象是因为梯度的反向传播受到干扰。因此,将残差连接添加到每个OSA模块中,以简化优化,从而使OVV网络更深,进而提高性能。
在SE通道注意力模块中,作者发现全连接的层减小了通道大小,从而减少了计算负担,并导致通道信息的丢失。因此,将SE模块重新设计为有效SE(eSE),将两个FC层替换为一个FC层,以保持通道维度,从而防止信息丢失,进而提高性能。

一、文章实现细节

(一)、Spatial Attention-Guided Mask

最近,注意力方法被广泛应用于目标检测,因为它有助于关注重要特征,但也抑制了不必要的特征。特别是,通道注意强调在特征图的通道中关注“什么”,而空间注意则关注“哪里”是一个信息区域。受空间注意机制的启发,本文采用了一个空间注意模块来引导 mask head聚焦有意义的像素并抑制无信息的像素。 如上图所示。一旦RoI Align以14×14的分辨率提取出预测RoI内的特征,这些特征将被输入到四个conv层和空间注意模块(SAM)。利用空间注意力 A s a g ( X i ) ∈ R 1 × W × H A_{sag(Xi)}∈ R^{1×W×H} AsagXiR1×W×H作为特征描述符的输入特征映射 X i ∈ R C × W × H X_i∈ R^{C×W×H} XiRC×W×H,SAM首先生成集合特征 P a v g P_{avg} Pavg P m a x ∈ R 1 × W × H P_{max}∈ R^{1×W×H} PmaxR1×W×H分别沿通道执行平均池化和最大池化操作,并通过级联聚合它们。然后是一个3×3 conv层,并通过sigmoid函数进行归一化。计算过程总结如下:
在这里插入图片描述
其中σ表示 sigmoid函数, F 3 × 3 F_{3×3} F3×3为3×3 conv层,◦ 表示连接操作。最后,注意引导特征图 X s a g ∈ R C × W × H X_{sag}∈ R^{C×W×H} XsagRC×W×H的计算公式为:
在这里插入图片描述
⊗ 表示按元素的乘法。一个2×2的deconv将空间特征图采样到28×28分辨率。最后,应用1×1 conv预测特定类别的masks。
在这里插入图片描述

如上所示,OSA模块由连续的conv层组成,并同时聚合后续的特征图,它可以有效地捕获不同的感受野,进而在准确性和速度上优于DenseNet和ResNet。
尽管VoVNet具有高效多样的特征表示,但它在优化方面仍有局限性。随着OSA模块在VoVNet中堆叠(例如,更深),会造成精度饱和或降低。基于ResNet的动机,作者推测,由于conv等变换函数的增加,堆叠OSA模块会使梯度的反向传播逐渐变得困难。因此,如上图(b)所示,将身份映射添加到OSA模块中。输入路径连接到OSA模块的端部,该模块能够以端到端的方式在每个阶段(如ResNet)上反向传播每个OSA模块的梯度。身份映射提高了VoVNet的性能,也使得VoVNet可以像VoVNet-99那样扩大其深度。
为了进一步提高VoVNet的性能,作者还提出了通道注意力模块–有效挤压激励(eSE),更有效地改进了原始SE。SE是CNN架构中采用的一种具有代表性的通道注意方法,它明确地建模了特征图通道之间的相互依赖关系,以增强其代表性。SE模块通过全局平均池化压缩空间依赖性,学习特定于通道的描述符,然后学习两个全连接的描述符,后跟sigmoid函数的图层用于重新缩放输入特征图,以仅高亮显示有用的通道。简而言之,给定的输入特征图 X i ∈ R C × W × H X_i∈ R^{C×W×H} XiRC×W×H,通道注意图 A c h ( X i ) ∈ R C × 1 × 1 A_{ch(X_i)}∈ R^{C×1×1} AchXiRC×1×1的计算公式为:
在这里插入图片描述

然而,假设SE模块有一个限制:由于尺寸减小,通道信息丢失。为了避免高模型复杂度负担,SE模块的两个FC层需要减少通道维数。具体来说,当第一个FC层使用缩减率r将输入特征通道C缩减为C/r时,第二个FC层将缩减后的通道扩展为原始通道大小C。因此,这种通道尺寸缩减会导致通道信息丢失。
因此,本文提出了一种有效的SE(eSE),它只使用一个C通道的FC层,而不是两个FC层,而不减少通道维数,从而维护通道信息,进而提高性能。eSE过程定义为:
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值