Mask-RCNN论文阅读笔记

Mask-RCNN是目标检测框架Faster-RCNN的扩展,用于实例分割任务。它通过增加一个mask分支预测每个RoI的分割掩模,采用RoIAlign层解决定位精度问题。实验表明,模型在COCO数据集上的人体关键点检测任务中表现出色。此外,Mask-RCNN的mask预测与分类解耦,提升了预测准确性。
摘要由CSDN通过智能技术生成

1. Introduction

实例分割的挑战性在于它需要正确地检测出图像中物体的位置的同时对每一个实例精确地分割。因此这是一个结合了CV领域中目标检测(分类并且定位图片中的物体)和实例分割(将图像中每一个像素点分类,且同一个实例中的像素点是一类)的任务。

Mask-RCNN对Faster-RCNN做了扩展,增加了一条分支用于为每一个roi预测分割mask掩模。这个mask分支就是应用在每一个roi上的小型FCN网络,这个mask分支在像素级别上预测出了一个分割mask。这条新增的分支只会增加很少的计算量。

直觉上来说Mask-RCNN只是对Faster-RCNN的一个扩展,然而恰当地建立这个mask分支对于得到好的结果至关重要。更重要的是,Faster-RCNN并没有对网络的输入和输出设计像素点到像素点的对齐。这也是为什么ROIpool只为实例分割提供了粗糙的空间特征。为了解决这种对齐错位,我们提出了一个简单的,无量化的层(quantization-free layer),名叫RoIAlign。它能够忠实地保留确切的空间位置信息。

RoiAlign将mask的准确率从10%提升到了50%,提供了严格的位置度量。其次,我们发现将mask和分类预测解耦很重要:我们为每一个类别独立地预测一个二值化mask,而不是在各个类别中预测,并使用网络的RoI的分类分支预测类别。作为对比,FCN们通常表现出每一个像素点的多类别,这将分割和分类耦合在了一起,这在实例分割任务上表现得不好。

通过在COCO数据集上的人

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值