图像分割“Instance-aware Semantic Segmentation via Multi-task Network Cascades”

最新推荐文章于 2024-08-16 08:21:44 发布

cv_family_z

最新推荐文章于 2024-08-16 08:21:44 发布

阅读量3.2k

点赞数

分类专栏：目标检测图像分割

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cv_family_z/article/details/70229640

版权

目标检测同时被 2 个专栏收录

43 篇文章 0 订阅

订阅专栏

14 篇文章 2 订阅

订阅专栏

模型包含三个网络：实例分辨，掩码计算，目标归类。三个网络形成级联的结构。运行时间上，使用VGG-16一张图片需360ms。在MS COCO 2015分割比赛中获取第一名。

将instance-aware语义分割分成三个子任务：1.实例分辨，使用类别无关的bbox表示实例；2.掩码估计，估计每个实例的像素级掩码；3.目标分类，预测每个掩码级别实例的类别。论文提出的多任务学习时级联结构，下一阶段依靠上一阶段的输出，如下所示:
这里写图片描述

多任务网络级联
三个阶段共享卷积特征，每个阶段包含一个损失项，但后面一阶段的损失依靠上一阶段的损失。

Box-级实例回归
网络结构与损失函数与RPN类似，在共享特征后，衔接一个3*3的卷积层降维，然后接两个1*1的卷积层用于bbox回归和是否目标分类。RPN损失为：
$L_1=L_1(B(\Theta))$
其中 $\Theta$ 表示所有需要优化的网络参数，B是此层网络的输出，即bbox。
Mask-级实例回归
给定阶段1的bbox，使用RoI池化提取固定长度的特征，之后衔接两个全连接层，第一个fc层将维度降为256，第二个fc层回归pixel-wise掩码，有 $m^2$ 个输出，对应相应大小的掩码。第二层的损失函数为：
$L_2=L_2(M(\Theta)|B(\Theta))$
实例分类
只保留掩码部分对应的特征：
$F_i^{Mask}(\Theta)=F_i^{RoI}(\Theta)\cdotp M_i(\Theta)$
衔接两个4096-d的全连接层，损失函数为：

整体网络结构如下图所示：
这里写图片描述

网络训练
1. 级联结构的损失函数为：
这里写图片描述

RoI Warping 层
目的是生成每个box更具分辨性的特征，该层裁切一个特征图区域，使用插值法将其warp到目标尺寸。给定预测出的bbox和全图的卷积特征图，RoI warp层在box内差值，输出固定大小的特征。

增加RoI warp层是期望获取更高分辨率的特征，作用与空间转换网络（STN）类似，作者认为特征插值能够带来更具分辨力的特征。

更多层级联
第3级级联的输出可以作为新的proposals，再将第2级和第3级连接到其后，可以提升性能，示意图如下所示：
这里写图片描述

实验结果
1. 与其他实例分割方法的结果比较
这里写图片描述
2. 与Fast/Faster RCNN检测结果比较

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。