图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”

模型包含三个网络:实例分辨,掩码计算,目标归类。三个网络形成级联的结构。运行时间上,使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。

将instance-aware语义分割分成三个子任务:1.实例分辨,使用类别无关的bbox表示实例;2.掩码估计,估计每个实例的像素级掩码;3.目标分类,预测每个掩码级别实例的类别。论文提出的多任务学习时级联结构,下一阶段依靠上一阶段的输出,如下所示:
这里写图片描述

多任务网络级联
三个阶段共享卷积特征,每个阶段包含一个损失项,但后面一阶段的损失依靠上一阶段的损失。

  1. Box-级实例回归
    网络结构与损失函数与RPN类似,在共享特征后,衔接一个3*3的卷积层降维,然后接两个1*1的卷积层用于bbox回归和是否目标分类。RPN损失为:
    L1=L1(B(Θ))
    其中 Θ 表示所有需要优化的网络参数,B是此层网络的输出,即bbox。
  2. Mask-级实例回归
    给定阶段1的bbox,使用RoI池化提取固定长度的特征,之后衔接两个全连接层,第一个fc层将维度降为256,第二个fc层回归pixel-wise掩码,有 m2 个输出,对应相应大小的掩码。第二层的损失函数为:
    L2=L2(M(Θ)|B(Θ))
  3. 实例分类
    只保留掩码部分对应的特征:
    FMaski(Θ)=FRoIi(Θ)Mi(Θ)
    衔接两个4096-d的全连接层,损失函数为:
    这里写图片描述

整体网络结构如下图所示:
这里写图片描述

网络训练
1. 级联结构的损失函数为:
这里写图片描述

  1. RoI Warping 层
    目的是生成每个box更具分辨性的特征,该层裁切一个特征图区域,使用插值法将其warp到目标尺寸。给定预测出的bbox和全图的卷积特征图,RoI warp层在box内差值,输出固定大小的特征。
    这里写图片描述
    增加RoI warp层是期望获取更高分辨率的特征,作用与空间转换网络(STN)类似,作者认为特征插值能够带来更具分辨力的特征。

更多层级联
第3级级联的输出可以作为新的proposals,再将第2级和第3级连接到其后,可以提升性能,示意图如下所示:
这里写图片描述

实验结果
1. 与其他实例分割方法的结果比较
这里写图片描述
2. 与Fast/Faster RCNN检测结果比较
这里写图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值