TensorMask:实例分割全新方法,效果比肩 Mask R-CNN

作者提出了首个密集滑动窗口实例分割系统,目标是解决密集滑动窗口方法在边界框检测方面应用广泛,但在实例分割方面却完全缺失的难题,为探索基于边界框的密集实例分割方法提供了基础。

论文地址:
https://arxiv.org/pdf/1903.12174.pdf

什么是 TensorMask

TensorMask 表征的核心理念是利用结构化的4D张量在空间域上表征 Mask。理念与之前分割与类无关的对象的工作形成了对比,如DeepMask和InstanceFCN,后者将Mask被打包为第三个「通道」轴。
TensorMask的输出示例
本文将密集实例分割形式化为一种基于结构化4D张量的预测任务,除获得具有竞争力的定量结果以外,TensorMask还获得了合理的定性结果。图中大、小尺寸的物体都能被很好地描绘出来,物体的重叠也能够正确处理。

采用4D张量表征Mask

TensorMask使用结构化的高维张量表示密集窗口的图像内容。举个例子,在特征图 W ∗ H W*H WH 上有一个 V ∗ U V*U VU 大小的滑动窗口,可以使用形状为 (C, H, W) 的张量表示所有滑动窗口上的所有 Mask,且每一个 Mask 可以通过 C = V ∗ U C=V *U C=VU 个像素参数化,这就是 DeepMask中采用的表征。与以前面向通道的方法不同,本文建议采用形状 为(V, U, H, W) 的 4D张量,其中(H, W) 表示目标位置,(V, U) 表示对应的 mask 的位置,它们都是几何子张量,即张量的轴有明确定义的集合和关于图像的几何意义。
在理解这种张量表征前,我们先要了解 6 个关键概念。
(1)长度的单位(unit of length)一个轴的单位定义了对应单个像素的长度,不同的轴有不同的单位。
(2)自然表征(Natural Representation),它表示 (H, W) 上的滑动窗口,这可以称为自然表征。
(3)对齐表征(Aligned Representation),使用卷积计算特征时,保持输入像素和输出像素的对齐能带来很多性能上的提升。
(4)坐标转换(Coordinate Transformation),论文引入了这种方法以在自然表征和为对齐表征之间做转换,这会给设计新架构带来额外的灵活性。
(5)放大转换(Upscaling Transformation),对齐表征允许使用粗粒度的子张量 (V hat, U hat) 创建细粒度的子张量 (V, U)
(6)张量Bipyramid,作者提出了这种基于尺度来调整 Mask 像素数量的方法。
左图为自然表征,其中 (V, U) 子张量表示以该像素为中心的窗口。右图为对齐表征,(V hat, U hat) 子张量表示该像素在各窗口的值。

TensorMask 架构

TensorMask模型拥有掩码预测的输出头(网络分枝),根据滑动窗口中生成 Mask;同时还有一个用于分类的输出头,可以预测目标类别,两者类似于滑动窗口目标检测器中的边界框回归和分类的网络分枝。
基线 Mask 预测输出头,这四种输出头都从通道为 C 的特征图开始。
所示的头部从特征图开始具有任意通道号C.然后是1×1转换图层将要素投影到适当数量的频道,通过重塑形成指定的4D张量。输出单位这四个头是相同的, σ V U = σ H W \sigma_{VU}=\sigma_{HW} σVU=σHW
使用基线 Head 的特征金字塔,与 Tensor Bipyramid 的对比。
在TensorMask框架的支持下,我们在一个4D tensors的标度索引列表上建立了一个金字塔结构,我们称之为张量双金字塔(tensor bipyramid)。与特征金字塔类似,是一个多尺度特征映射列表,它包含一个形状为  2 k V 、 2 k U 、 1 2 k H 、 1 2 k H 2^{k}V、2^{k}U、\frac{1}{2^{k}}H、\frac{1}{2^{k}}H 2kV2kU2k1H2k1H的4D张量列表,其中k≥0个索引尺度。这种结构在(H, W)和(V, U)几何子张量上都呈金字塔形状,但方向相反。这种设计捕捉了大对象具有粗糙空间定位的高分辨率 mask(大k) 和小对象具有精细空间定位的低分辨率 mask(小k)的理想特性。

实验和结果

首先,我们研究了使用 V =U=15 和 ResNet-50-FPN 骨干的 mask 的各种张量表示。下表报告了定量结果
第一行是Mask R-CNN的结果,第二行是TensorMask的结果
如上表所示,最好的 TensorMask 在 test-dev 上达到了35.5 mask AP,接近于 mask R-CNN 的 36.8。 在 ResNet-101 中,TensorMask 实现了 37.3 mask AP,与 mask R-CNN 相比只有 1.0 AP 差距。这些结果表明,密集滑动窗口方法可以缩小与“先检测后分割”方法的差距。

结论

TensorMask 是一个密集滑动窗口实例分割框架,首次在定性和定量上都接近于 Mask R-CNN 框架。TensorMask为实例分割研究建立了一个概念互补的方向。希望本文的工作能够为滑动窗口在实例分割中的应用创造新的机会。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值