论文题目:Instance-aware Semantic Segmentation via Multi-task Network Cascades
模型运行时间上,使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。
本文的出发点是做Instance-aware Semantic Segmentation,但是为了做好这个,作者将其分为三个子任务来做:
1) Differentiating instances. 实例区分
2) Estimating masks. 掩膜估计
3) Categorizing objects. 分类目标
整体框架
对于传统的多任务方法,在共享特征的基础上,每个任务同时进行,在后续的实验中,各个任务之间互不干扰,互相独立。
这篇论文提出的多任务方法,在共享特征的基础上,下一个任务依赖于上一个任务以及共享特征,如此形成层级的多任务结构。
详细解析
这篇论文主要做三个任务:
(1). 实例区分 (Differentiating instances)
(2). 掩膜估计 ( Estimating masks)
(3). 分类目标 (Categorizing objects)
可以使用VGG-16前13层学到的特征作为共享特征。
每个任务阶段都包括一个损失项,下一任务阶段的损失依赖于上一任务的损失。
为了实现反向传播,论文使用了关于空间坐标可微的网络层,使得梯度可计算。
通过这种分解,作者提出了如下的多任务学习框架,即:Multi-task Network Cascades (MNCs),示意流程如下:</