YOLACT: Real-time Instance Segmentation

最新推荐文章于 2023-09-15 16:32:42 发布

rrr2

最新推荐文章于 2023-09-15 16:32:42 发布

阅读量2.2k

点赞数

分类专栏：视频分割

本文链接：https://blog.csdn.net/qq_35608277/article/details/89189676

版权

视频分割专栏收录该内容

4 篇文章 1 订阅

订阅专栏

ｐａｐｅｒ
https://arxiv.org/abs/1904.02689
ｇｉｔ
https://github.com/dbolya/yolact
目的：
像maskrcnn->fastrcnn,在单阶段检测算法上增加分割。

０　效果

在这里插入图片描述

19年最新的ＣＶＰＲ,目前达到实时级别，～３０ｆｐｓ。训练时只是用了一个ＧＰＵ　ｔｉｔａｎｘｐ.
精度跟ＭＳ RCNN差的比较多，10左右。
同样精度时，比ｍａｓｋｒｃｎｎ快３．８倍左右。

１　创新点

１　解决分割的新的分两步方法。

在单阶段识别基础上，将分割任务划分为两个子任务：ｗｈａｔ和where.
where:在一张图上（并不像ｍａｓｋｒｃｎｎ使用ＲＯＩPOOING带来质量损失）产生一系列ｐｒｏｔｏｔｙｐｅｓ,
what:预测每个实例预测掩膜ｍａｓｋ的线性结合系数。（该方法能够自主的定位实例位置，同时这些ｍａｓｋ类别上独立，因此可以在类间共享）
在这里插入图片描述
２．提出了Ｆａｓｔ　ＮＭＳ
带来１２ｍｓ的提速，以非常小的精度损失。

在这里插入图片描述

同时做了很多speed vs performance对比实验：

backbone （resnet5０,101,darknet53 ）图像分辨率（４００　５５０　７００）

在这里插入图片描述

prototype数量
速度

其中，ｆｃ-mask是掩膜输出使用ｆｃ层的模型，为了证明使用ＦＣＮ网络的ｐｒｏｔｏｎｅｔ作为掩膜预测的有效性（ＦＣＮ具有空间特性，而ｆｃ适合输出ｃｌｓ和ｂｂｏｘ系数）。

２　相关工作

实例分割也分为单阶段(6,22,4)和两阶段（ＭＡＳＫ　MASKSCORING ），间接方式一般先语义分割随后边界检测、像素聚类或学习形成实例掩膜，是多阶段往往包含大量的聚类过程。
而能达到实时性的往往效果较差。
Ｂｏｘ2pix在 KITTI 、Cityscape数据集上能够达到３５ｆｐｓ，１１ｆｐｓ，但是在多类目标上的迁移性较差。
综上，ｍａｓｋ仍然很牛掰。

对于ｐｒｏｔｏｔｙｐｅ，是文本和可视词这类文本处理的方法，利用稀疏性和位置先验。现在扩展到视觉领域，表征特征。（prototype的稀疏性是指？？）
本文ｐｒｏｔｏｔｙｐｅ不是针对整个数据集学习，而是对每个实例图片。

３　YOLACT

增加两个分支
１．使用全卷积网络产生原图尺寸的prototype masks　，并不依赖于某个实例。FCN可以有更好的空间相关性。
２．在检测网络上增加head，利用ｆｃ层为每个锚点预测ｍａｓｋ系数向量，该向量对prototype空间中的实例（个人理解更像是被检测网络中挑出来的）进行编码。ｆｃ层能更好产生语义向量。

最后，对经过ＮＭＳ筛选出来的实例通过线性组合两个分支生成掩膜。

3.1 prototype生成（protonet）

protonet= FCN -->k channels　prototype masks
在这里插入图片描述
P3出来尺寸６９＊６９＊２５６（ＦＰＮ最大尺寸最底层的输出，可以有更好的鲁棒性），两个３＊３卷积后，ｕｐｓａｍｐｌｅ一倍（到原图的１／４，高分辨率可以提高掩膜质量和小目标检测效果），最后是１＊１×ｋ卷积接ＲＥＬＵ(响应值不设边界，更有利用表征特征，比如指出背景位置)。
中间用的什么激活函数需要看ｃｏｄｅ，看过的可以解答：

3.2 mask coefficients

在这里插入图片描述

经过ＦＰＮ第Ｐi层输出，除了两个预测类别ｃ和边界框4的分支，增加了ｍａｓｋ系数预测分支ｋ个,对应ｋ个ｐｒｏｔｏｔpｙｅｓ.所以对于每个锚点预测ｃ+4+k个值。Ｐｉ层共ａ个锚点。
为了保证非线性，需要能够减掉ｐｒｏｔｏｔｙｐｅ。否则不能生成掩膜。（跟非线性什么关系？？）
ｋmask 系数分支使用ｔａｎｈ，在没有非线性下输出更加稳定。?（跟谁比较？）

3.3 mask assembly

为了产生最终的ｍａｓｋ，将二者结合。

在这里插入图片描述
利用次公式计算输出。
其中Ｐ是prototypes尺度HWk，
C是ｍａｓｋ　coefficients尺度ｎ*k，其中ｎ是ｎ个实例结果（经过ＮＭＳ和ｓｃｏｒｅ　ｔｈｒｅｓｈ后的）
最后ｓｉｇｍｏｄ非线性输出。

此处线性组合保证简洁快速。

ｌｏｓｓ

ｃｌｓ和ｂｏｘ是ＳＳＤ的
ｍａｓｋ是二值交叉熵损失ＢＣＥ(M,Mgt)

小目标ｃｒｏｐ

为保存在prototype中的小目标
测试时候用ｂｂｏｘ裁剪，
训练时候真值框代替裁剪，并通过真值框区域划分Ｌmask??
（有小目标判断？怎么划分ｌｏｓｓ　ｍａｓｋ）

backbone

因为两个分支网络都难ｔｒａｉｎ，速度特征丰富度都要考虑、检测器在Retinanet思路上强调速度。
并没有使用ｒｅｔｉｎａｎｅｔ的ｆｏｃａｌ　ｌｏｓｓ，而是用的ＯＨＥＭ

rrr2

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
YOLACT: Real-time Instance Segmentation

ｐａｐｅｒhttps://arxiv.org/abs/1904.02689ｇｉｔhttps://github.com/dbolya/yolact效果19年最新的ＣＶＰＲ,目前达到实时级别，～３０ｆｐｓ。训练时只是用了一个ＧＰＵ　ｔｉｔａｎｘｐ.精度跟ＭＳ RCNN差的比较多，10左右。但是在实例分割领域是个突破，第一个可以做到实时。创新点１　将分割任务划分为两个子任务：首先昌盛一...
复制链接

扫一扫