TensorMask：实例分割全新方法，效果比肩 Mask R-CNN

最新推荐文章于 2022-08-07 05:19:04 发布

a609640147

最新推荐文章于 2022-08-07 05:19:04 发布

阅读量1.1k

点赞数

文章标签：人工智能论文

本文链接：https://blog.csdn.net/a609640147/article/details/89107738

版权

作者提出了首个密集滑动窗口实例分割系统，目标是解决密集滑动窗口方法在边界框检测方面应用广泛，但在实例分割方面却完全缺失的难题，为探索基于边界框的密集实例分割方法提供了基础。

论文地址:
https://arxiv.org/pdf/1903.12174.pdf

什么是 TensorMask

TensorMask 表征的核心理念是利用结构化的4D张量在空间域上表征 Mask。理念与之前分割与类无关的对象的工作形成了对比，如DeepMask和InstanceFCN，后者将Mask被打包为第三个「通道」轴。
TensorMask的输出示例
本文将密集实例分割形式化为一种基于结构化4D张量的预测任务，除获得具有竞争力的定量结果以外，TensorMask还获得了合理的定性结果。图中大、小尺寸的物体都能被很好地描绘出来，物体的重叠也能够正确处理。

采用4D张量表征Mask

TensorMask使用结构化的高维张量表示密集窗口的图像内容。举个例子，在特征图 $W * H$ 上有一个 $V * U$ 大小的滑动窗口，可以使用形状为 (C, H, W) 的张量表示所有滑动窗口上的所有 Mask，且每一个 Mask 可以通过 $C = V * U$ 个像素参数化，这就是 DeepMask中采用的表征。与以前面向通道的方法不同，本文建议采用形状为(V, U, H, W) 的 4D张量，其中(H, W) 表示目标位置，(V, U) 表示对应的 mask 的位置，它们都是几何子张量，即张量的轴有明确定义的集合和关于图像的几何意义。
在理解这种张量表征前，我们先要了解 6 个关键概念。
（1）长度的单位（unit of length）一个轴的单位定义了对应单个像素的长度，不同的轴有不同的单位。
（2）自然表征（Natural Representation），它表示 (H, W) 上的滑动窗口，这可以称为自然表征。
（3）对齐表征（Aligned Representation），使用卷积计算特征时，保持输入像素和输出像素的对齐能带来很多性能上的提升。
（4）坐标转换（Coordinate Transformation），论文引入了这种方法以在自然表征和为对齐表征之间做转换，这会给设计新架构带来额外的灵活性。
（5）放大转换（Upscaling Transformation），对齐表征允许使用粗粒度的子张量 (V hat, U hat) 创建细粒度的子张量 (V, U)
（6）张量Bipyramid，作者提出了这种基于尺度来调整 Mask 像素数量的方法。
左图为自然表征，其中 (V, U) 子张量表示以该像素为中心的窗口。右图为对齐表征，(V hat, U hat) 子张量表示该像素在各窗口的值。

TensorMask 架构

TensorMask模型拥有掩码预测的输出头（网络分枝），根据滑动窗口中生成 Mask；同时还有一个用于分类的输出头，可以预测目标类别，两者类似于滑动窗口目标检测器中的边界框回归和分类的网络分枝。
基线 Mask 预测输出头，这四种输出头都从通道为 C 的特征图开始。
所示的头部从特征图开始具有任意通道号C.然后是1×1转换图层将要素投影到适当数量的频道，通过重塑形成指定的4D张量。输出单位这四个头是相同的， $\sigma_{VU}=\sigma_{HW}$ 。
使用基线 Head 的特征金字塔，与 Tensor Bipyramid 的对比。
在TensorMask框架的支持下，我们在一个4D tensors的标度索引列表上建立了一个金字塔结构，我们称之为张量双金字塔(tensor bipyramid)。与特征金字塔类似，是一个多尺度特征映射列表，它包含一个形状为 $2^{k}V、2^{k}U、\frac{1}{2^{k}}H、\frac{1}{2^{k}}H$ 的4D张量列表，其中k≥0个索引尺度。这种结构在(H, W)和(V, U)几何子张量上都呈金字塔形状，但方向相反。这种设计捕捉了大对象具有粗糙空间定位的高分辨率 mask(大k) 和小对象具有精细空间定位的低分辨率 mask(小k)的理想特性。

实验和结果

首先，我们研究了使用 V =U=15 和 ResNet-50-FPN 骨干的 mask 的各种张量表示。下表报告了定量结果
第一行是Mask R-CNN的结果，第二行是TensorMask的结果
如上表所示，最好的 TensorMask 在 test-dev 上达到了35.5 mask AP，接近于 mask R-CNN 的 36.8。在 ResNet-101 中，TensorMask 实现了 37.3 mask AP，与 mask R-CNN 相比只有 1.0 AP 差距。这些结果表明，密集滑动窗口方法可以缩小与“先检测后分割”方法的差距。

结论

TensorMask 是一个密集滑动窗口实例分割框架，首次在定性和定量上都接近于 Mask R-CNN 框架。TensorMask为实例分割研究建立了一个概念互补的方向。希望本文的工作能够为滑动窗口在实例分割中的应用创造新的机会。

a609640147

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
TensorMask：实例分割全新方法，效果比肩 Mask R-CNN

作者提出了首个密集滑动窗口实例分割系统，目标是解决密集滑动窗口方法在边界框检测方面应用广泛，但在实例分割方面却完全缺失的难题，为探索基于边界框的密集实例分割方法提供了基础。论文地址:https://arxiv.org/pdf/1903.12174.pdf什么是 TensorMaskTensorMask 表征的核心理念是利用结构化的4D张量在空间域上表征 Mask。理念与之前分割与类无关...
复制链接

扫一扫