DynaMask：用于实例分割的动态掩码选择

最新推荐文章于 2024-06-10 16:35:03 发布

小杨小杨1

最新推荐文章于 2024-06-10 16:35:03 发布

阅读量1.2k

点赞数

分类专栏： # 全监督文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_45745941/article/details/131082518

版权

全监督专栏收录该内容

128 篇文章 4 订阅

订阅专栏

DynaMask是一种新型的实例分割方法，通过双层特征金字塔网络动态选择合适的掩模分辨率，结合区域级FPN和图像级FPN信息，提高分割质量。同时，通过MaskSwitchModule(MSM)平衡分割精度和计算效率，减少了高分辨率掩模带来的额外计算负担。实验结果表明，这种方法能有效提升实例分割的性能。

摘要由CSDN通过智能技术生成

文章目录

DynaMask: Dynamic Mask Selection for Instance Segmentation

DynaMask: Dynamic Mask Selection for Instance Segmentation

摘要

具有代表性的实例分割方法大多采用固定分辨率的mask来分割不同的对象实例，例如28×28网格。然而，低分辨率mask会丢失丰富的细节，而高分辨率mask则会产生二次计算开销。预测每个实例的最优二进制mask是一项具有挑战性的任务。
本文方法

为不同的对象建议动态选择合适的掩码
开发了一种具有自适应特征聚合的双层特征金字塔网络（FPN），以逐步提高掩模网格的分辨率，确保对象的高质量分割。
具体而言，引入了一种有效的区域级自上而下路径（r-FPN），以合并来自图像级FPN（i-FPN）不同阶段的互补上下文和详细信息。
为了缓解由于使用大MASK而导致的计算和内存成本的增加，开发了一种计算成本可忽略不计的掩码切换模块（MSM），为每个实例选择最合适的掩码分辨率，在保持高分割精度的同时实现高效率。
代码地址

在这里插入图片描述

本文方法

在这里插入图片描述
DynaMask的整体架构：

提出了一种双层FPN框架，以逐步增加mask尺寸并实现更高质量的IS
在图像级FPN（i-FPN）和区域级FPN的每一层之间构建信息流，从而通过结合i-FPN的{P2，P3，P4}的互补信息，不断增强区域特征层次{Ltiny，Lsmall，Lmedian，Llarge}，从而导致粗略到精细的掩模预测
为了降低计算和内存成本，开发了一个mask交换模块（MSM）来预测每个实例的掩码分辨率，并进行资源消耗预算。
MSM输出四种不同的开关状态，对应于四个不同的掩模分辨率，即[14×14，28×28，56×56112×112]

Dual-Level FPN

较低级别的特征比较高级别的特征包含更多细粒度的细节，这有利于高质量的分割，特别是在边界区域，但Mask R-CNN中没有充分探讨这些信息。在这项工作中，我们提出了一种区域级FPN（r-FPN），将来自i-FPN较低层的更详细的信息集成到区域特征层次中。

Region-Level FPN

遵循原始的i-FPN来定义产生与对应于一个特征级别的一个网络阶段相同分辨率的特征图的层。使用{P2，P3，P4，P5}来表示i-FPN的不同特征级别。r-FPN从RoI对齐的区域特征开始，并通过融合来自i-FPN的{P2，P3，P4}的互补信息来逐渐增强，从而产生自上而下的基于区域的特征层次，表示为{Ltiny，Lsmall，Lmedium，Llarge}。从Ltiny到Llarge，空间分辨率逐渐增加两倍。我们设计了一个特征聚合模块（FAM）来集成r-FPN特征Lr和i-FPN特征Pi

Feature Aggregation Module (FAM)

由于上采样和RoI化操作，Lr和Pi之间存在空间错位，这可能会降低边界区域的分割性能。为了克服这一限制，我们提出了自适应聚合多尺度特征的FAM。如图6所示，FAM包含两个可变形卷积，它们起着不同的作用。
第一个（Deform Conv1）调整Lr的位置，使其更好地与Pi对齐。在这里，我们首先将Lr与Pi连接起来，然后将连接的特征通过3×3 Conv来获得偏移图，用∆o表示。最后，用学习的偏移∆o将Lr与Pi对齐。
在这里插入图片描述

Mask Switch Module (MSM)

所提出的双层FPN框架带来了显著的性能改进，但代价是昂贵的计算和内存负担。受不同实例需要不同的mask网格来实现精确分割这一事实的启发，我们提出了一种针对不同实例自适应调整掩模网格分辨率的新方法。具体而言，MSM被开发用于在预算计算消耗下执行掩模分辨率预测，从而在分割精度和效率之间实现良好的权衡
在这里插入图片描述
Optimal Mask Assignment

MSM模块实际上是一个轻量级分类器，用fMSM（·）表示，如图4所示。它包含一个通道式注意力模块，后面是几个卷积层和全连接层。该分类器旨在从K个候选集合中找到最佳掩码分辨率，即[r1，r2，··，rK]，以便以最小的资源成本准确地分割实例。具体而言，MSM以裁剪后的区域RoI特征为输入，并通过进行softmax运算输出概率向量P=[p1，··，pK]。该向量的每个元素表示相应的候选分辨率被选择的概率：
在这里插入图片描述
使用Gumbel softmax函数作为原始softmax函数的连续、可微近似：