文章:https://arxiv.org/pdf/1903.12174v1.pdf
这是第一次看分割的论文,据说相当于分割界的yolo。
现在分割界的方法主要是由先检测出目标的bounding boxes,再修剪和分割这些区域,大致都是mask rcnn一类的。这篇论文研究了密集的基于滑动窗口的实例分割。这项任务远远不同于语义分割和目标检测,因为在每个空间位置的输出是一个几何形的结构和它的空间维度。因此我们把实例分割视作一个超过4d张量的一个预测任务,提出了一个叫做TensorMask的架构。
这个结构利用4d tensors(V, U, H, W),其中(H, W)代表了目标的位置,(V,U)代表了相对的mask的位置。
Natural Representation 和Aligned Representation:
![](https://img-blog.csdnimg.cn/20190401185844972.jpeg)
Natural representation于aligned representation相比存在偏差的情况,后面实验也证明了aligned的效果更好
这两种表示的转化方程是:
TensorMask Architecture:
TensorMask 包括mask prediction部分来生成mask,还包括