SG-Net

2301_78700076

已于 2023-12-08 03:26:35 修改

阅读量869

点赞数 23

文章标签： python

于 2023-12-08 00:41:01 首次发布

本文链接：https://blog.csdn.net/2301_78700076/article/details/134861011

版权

论文地址：[2103.10284] SG-Net：用于单阶段视频实例分割的空间粒度网络 (arxiv.org)https://arxiv.org/abs/2103.10284

导言：

一、该算法之前，性能最好的VIS方法是Mask R-CNN

该算法通过添加跟踪分支来扩展两阶段Mask R-CNN，留下大量改进空间

二、本文提出了一种单阶段空间粒度网络SG-Net

与传统的两阶段方法相比，有4个优势

1)具有一阶段紧凑的架构，每个任务头(检测、分割和跟踪)是相互依赖的，因此它们可以有效地共享特征并享受联合优化;

2)在每个检测实例的子区域上动态执行掩码预测，得到细粒度的高质量掩码;

3)每个任务预测都避免了使用昂贵的基于建议的RoI特征，从而大大降低了每个实例的运行时复杂度;

4)跟踪头部对目标的中心性运动进行建模，有效地增强了跟踪算法对不同目标外观的鲁棒性。

简介：

一、视频实例分割 (VIS)：给定一个视频帧，算法旨在同时执行检测、分割和跟踪实例的任务。

二、开创性的工作MaskTrack R-CNN:

基本步骤：MaskTrack R-CNN遵循两阶段范式，因为它扩展自 Mask R-CNN 。 MaskTrack RCNN首先使用来自 Faster R-CNN 的区域建议网络(RPN) 产生一组候选建议。然后，裁剪出基于建议的感兴趣区域 (RoI) 特征，并将其输入到每个任务头中，分别预测边界框、实例掩码和目标跟踪。

问题：两阶段范式可能会遇到一些问题。

首先，两阶段方法中各子任务头 ( 检测、分割、跟踪 ) 难以共享特征，给网络架构优化带来麻烦 ;

其次，裁剪的 RoI 特征被调整为统一大小的补丁 ( 例如，在 Mask R-CNN 中14 × 14 或 28 × 28 ) ，这限制了实例掩码的输出分辨率。这种做法特别会影响对大型实例的预测，因为它们需要更高的分辨率来保留对象边界的细节。

第三，候选建议是冗余表示，因为它们的数字比最终预测大得多。掩码头和跟踪头必须重复编码基于建议的RoI 特征以进行最终预测。具体来说，掩码头需要一堆卷积 ( 例如， mask R-CNN 中的四个 3 × 3 卷积层) ，以获得足够大的感受野，以理解足够的图像上下文。因此，推理运行时间在很大程度上取决于视频帧上出现的检测到的对象的数量，并且会随着预测的增加而大大降低。

新角度：将VIS中的检测、分割和跟踪这三个子任务都视为相互关联的问题，应相互考虑。

实例分割的早期模型BlendMask和CondInst：

优点：它们都建立在FCOS框架上。与基于Mask r - cnn的方法相比，它们只使用全卷积网络(FCN)架构，这有助于避免RoI操作(即RoIpool、RoIAlign、裁剪和调整大小)。这种改进显著地保留了特征图的分辨率并保留了掩码边界的细节。此外，两种方法都实现了一个轻量级的掩模头，这使得它们在实时视频任务中具有很强的鲁棒性。

缺点：这两种方法都是在实例级别上分割对象，而忽略了在对象上实现更细粒度的潜力。

研究动机：如何规避繁重的基于提案的两阶段方法，并为VIS任务找到一个灵活的解决方案。

主要贡献：

1）从一个新的角度来解决可视任务。设计了一种紧凑的单阶段方法SG-Net。该方法动态地将实例划分为子区域，并在每个区域上进行空间粒度的分割，从而将其命名为SG-Net。与MaskTrack R-CNN相比，我们的方法实现了更有吸引力的分割行为，因为它可以丰富对象细节，并产生具有更准确边缘的掩模(如图1所示)。

2）该方法是无建议的、高效的。删除建议使我们能够将更重的任务分配给掩码预测模块，并具有可承受的计算开销。特别是，推理时间并不像两阶段方法那样随着预测数量的增加而增加。

3）整个架构仅由卷积操作组成，它与最先进的单阶段目标检测器 FCOS 相关联。相互

依赖地有机地构建每个任务头，使它们可以有效地共享特征并享受联合优化。

4）跟踪头通过模拟目标中心的运动来进行跟踪，简单有效。与 MaskTrack R-CNN 相比，所提出的跟踪头对不同的目标形状和大小以及外观变化具有更强的鲁棒性。

SG网

一、整体架构

SG-Net包括一个特征提取主干，一个检测头，一个掩码头和一个跟踪头。我

们的整体架构如图 2 所示。骨干网采用ResNet和FPNs。利用fpn的｛ P3 , P4 , P5 , P6 , P7｝特

征图，并应用不同的功能模块来完成不同的子任务。检测采用原始的FCOS，它由分类，框回

归，中心分支组成。在 t 时，我们将 i th 对象的检测表示为D i t = (c i t , o i t , b i t ) , ，其中 c i t ∈ { 0 , ..., C − 1 } 是被检测对象的类， o i t ∈ R 2 是被检测对象的中心位置， b i t ∈ R 4 是对象边界框。

二、Mask Head

三部分组成：1)空间注意力模块;2)掩模模块;3)混合模块。

空间 注意模块 : 空间注意力模块将对象边界框划分为多个子区域，并预测每个子区域的注意力

分数 ( 图 3 中的绿色区域 ) 。使用实例感知连接将边界框信息｛ b 1 , .., b n ｝从检测结果传播到空间注意力模块。根据对象的形状和大小，将对象边界框动态划分为r 1 × r 2 子区 r 1 , r 2 = min(6 , w/ 50), min(6,h/50) 其中 w 和 h 分别是边界框的宽度和高度，数字 50 以像素为单位。我们没有在 BlendMask ] 中将特征池化到 3D 参数密集的注意力图中，而是通过向每个P 3 − P 7 级别添加两个 3 × 3 卷积层，为每个子区域预测一组 1D 注意力分数 ( 类似于 YOLACT 中的系数) 。对于检测到的对象，我们将其注意力分数定义为A = { a j ∈ R | j = 1 , ..., r 1 × r 2 } ，其中 a j 是 j th 子区域的注意力分数。ya

掩码模块：