概要
目前(2019年前)基于密集网格式的滑动窗口目标检测器很流行也很成功(SSD,RetinaNet等),但是实例分割仍是由先检测再分割的Mask R-CNNR-CNN主导。本文提出了一个4D张量来代表预测的mask(其实就是将通道表示成一个固定大小区域的mask)。
- 出发点:dense instance segmentation
- 解决思路:developing effective representations for dense masks
结构
第三章看起来很复杂,据我的理解(若有错误还请指出),主要的就是两点。第一点就是特征的对齐,如下图所示。
左图这些五颜六色的小方框就是(y,x)点对应的通道特征,如果我们把通道reshape成VxU来代表这个中心点(y,x)点产生的mask,会有特征不对齐的问题,因为明明是这个点的特征,却用这个特征去表示周围点的mask特征不合适。所以就有了右图的对齐操作,这样这个点产生的特征对应了该点的mask特征。
第二点就是Tensor Bipyramid,提出这个是因为不同大小的特征图需要不同的窗口去产生mask,比如小的特征图&#