1、在Cascade Mask RCNN上的三个改进点
- 文章中提出:一个成功的实例分割级联的关键在于充分利用检测和分割之间的关系。
- 三个改进方向如下:
1)对bbox回归和mask预测进行交替的实现,而不是并行的执行
2)直接将mask分支相连,将前一个stage的mask特征送入当前的stage,以增强mask分支之间的信息流
3)添加了一个额外的语义分割分支,并将其融合到bbox分支和mask分支以探索更多的上下文信息
2、网络架构
- Cascade Mask RCNN:bbox分支和mask分支都是先将上一个stage的bbox预测作为输入提取ROI特征的,因此相当于是并行执行的。
- Interleaved Execution:按照第一个改进方向,进行了如下改进,就是从第二个stage开始,接收前一个stage的bbox作为输入,先预测出当前stage的bbox;再将当前stage的bbox作为mask分支的输入,提取ROI特征去预测mask。这样就实现了交替的预测。下面的gt为1*1的卷积。
- Mask Information Flow:将相邻的mask分支之间相连接,也就是当前stage的mask分支除了如(2)所述的接收当前stage的bbox通过ROI ALign所提取的ROI特征以外,还接收上一个stage的mask分支中的特征。这种设计可以实现不同mask分支之间的直接的信息流。
- Semantic Segmentation Branch:增加了语义分割分支,并将语义特征与bbox和mask分支的特征进一步融合。S为语义分割分支,如下图所示,也将其语义特征进行ROI ALign操作。
- 损失函数