论文:Hybrid Task Cascade for Instance Segmentation
论文链接:https://arxiv.org/abs/1901.07518
代码链接:GitHub - open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark
创新点
本文主要有两个创新点:
1、设计了多任务多阶段的混合级连结构。
2、融入语义分割分支增强 spatial context。
网络结构
图1(a) 图中每一个 stage 和 Mask R-CNN 相似,都有一个 mask 分支 和 box 分支。当前 stage 会接受 RPN 或者 上一个 stage 回归过的框作为输入,然后预测新的框和 mask。
缺点:Cascade R-CNN 虽然强行在每一个 stage 里面塞下了两个分支,但是这两个分支之间在训练过程中没有任何交互,它们是并行执行的。
为解决1(a)中问题, Interleaved Execution,也即在每个 stage 里,先执行 box 分支,将回归过的框再交由 mask 分支来预测 mask,如上图1(b)所示。
缺点:不同 stage 之间的 mask 分支是没有任何直接的信息流的, Mi+1只和当前Bi通过 RoI Align 有关联而与Mi没有任何联系。
为解决1(b)中问题,作者在相邻的 stage 的 mask 分支之间增加一条连接,提供 mask 分支的信息流,让Mi+1能知道Mi的特征。如图1(c)所示。详细结构如图2所示,我们将Mi的特征经过一个 1x1 的卷积做 feature embedding,然后输入到Mi+1,这样Mi+1既能得到 backbone 的特征,也能得到上一个 stage 的特征。
为区分前景与背景,将语义分割引入到实例分割框架中,以获得更好的 spatial context。如图1(d)所示,S为语义分割头。详细设计如图3所示。FPN输出不同level的特征图resize到同一尺度并相加,经过一系列卷积,分别预测语义分割特征以及语义分割预测结果,语义分割特征通过RoIAlign及element-wise sum与box、mask特征进行融合。
损失函数
损失函数如公式7所示,
表示t阶段mask预测损失函数,使用BCE;Lseg表示语义分割分支损失函数,使用CE。