Mask R-CNN论文笔记

Abstract图像的目标检测与生成高质量的分割掩码同时进行基于Faster R-CNN,添加一个预测目标掩码的分支(与已存在的分支bounding box recognition并行)易于推广到其他任务,比如人类姿态估计(相同框架)instance segmentation、bounding-box object detection、person keypoint detection实例分割的挑...
摘要由CSDN通过智能技术生成

Abstract

1.  图像的目标检测与生成高质量的分割掩码同时进行

2.  基于Faster R-CNN(相同框架),为每个RoI添加一个预测目标分割掩码的分支(与已存在的classification和bounding box regression分支并行),即FCN

3.  易于推广到其他任务,比如人类姿态估计(相同框架)

4.  贡献:instance segmentation、bounding-box object detection、person keypoint detection

Instance segmentation

挑战:要求正确的目标检测与精确的实例分割

结合了传统计算机视觉目标检测任务的元素:对独立的目标进行分类、用边界框对目标进行定位、用语义分割对每个像素进行分类

Faster R-CNN输入和输出之间的像素并不对齐,因为RoI Pooling只对特征提取执行粗糙的空间量化

Mask R-CNN的RoIAlign可以保存精确的空间位置,提高了mask accuracy,分离了mask和分类(为每类独立的预测一个binary mask)

Faster R-CNN

1.  通过RPN生成candidate object bounding boxes

2.  RoIPool从每个candidate box中提取features,然后进行classification和bounding-box regression(两个输出)

Mask R-CNN

1.  同Faster R-CNN第一步

2.  与以上第二步类似,每个RoI额外输出一个binary mask(三个输出)


multi-task loss

L = Lcls + Lbox + Lmask

RoIPool

作用:从每个RoI中提取一个小的feature map

实施:首先将浮点数RoI量化为feature map离散的值,然后将量化的RoI细分为量化的空间bin,最后将每个bin覆盖的特征值聚合(通常max pooling)

缺点:这些量化引入了RoI和提取feature的不一致,对预测pixel-accurate masks有很大的负面影响

RoIAlign

方法:移除了RoIPool的量化操作,并将提取的特征与输入对齐

Human Pose Estimation

方法:将key-point的位置建模为一个one-shot mask,并采用Mask R-CNN预测K个masks(与key-point对应)

修改:分割阶段,每个key-point的训练目标是一个one-shot的m×m binary mask,并且只有一个像素标记为前景

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值