论文框架:
作者提出一种基于多任务的网络串联方法(Multi-task Network Cascade),解决问题实例分割(Instance-aware Semantic Segmentation)。该模型分成三个子网络,differentiate instance,estimate mask,category object。分别针对三个问题,获取region-level的检测框,得到pixel-level的mask,对每个mask获得category-level的label。
流程图如下:
其中conv feature map使用VGG-16获得。
并且,该模型不同于一般的多任务网络,他的后一任务的loss依赖于前一任务的输出,所以他的三个loss都是不独立的。
I. Regressing Box-level Instance
第一个子网络获得每个目标的bounding box,和objectness score(class-agnostic,即不知道该目标属于哪一类)。
这个子网络使用Region-Proposal-Networks(RPN)的网络框架,输入是shared feature map(即特征图),连接一个3X3的卷积层用来降维,再接一个1X1的卷积层来回归box location和classifying object/non-object。
作者采用RPN的loss function :
L1=L1(B(Θ))
其中 Θ 表示所有待优化的网络参数。 B 表示该网络,输出是一系列的boxes: