BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

BlendMask是一种结合了Top-down和Bottom-up方法的实例分割模型,旨在解决传统方法中的位置信息损失和context信息匮乏问题。基于FCOS,它通过blender模块融合实例级信息与逐像素预测,实现了在COCO数据集上的高性能分割,mask mAP达到41.3。相比于Mask-RCNN,BlendMask在准确性和速度上都有所提高。
摘要由CSDN通过智能技术生成

Paper link: https://arxiv.org/abs/2001.00309

GitHub (PyTorch, 基于Detectron2): https://github.com/aim-uofa/adet

Introduction

实例分割任务需要执行dense per-pixel prediction,在完成像素级语义分类的同时,需要鉴别出目标实例鉴。基于深度学习的实例分割模型,通常包括Top-down架构与Bottom-up架构,两种结构各有优劣势。文章提出的BlendMask实例分割模型,以Anchor-free FCOS检测器为主体结构,通过融合High-level实例信息与Low-level逐像素预测结果,达到了SOTA的分割效果。mask mAP最高能到41.3,实时版本BlendMask mAP性能和速度分别为34.2和25FPS (1080ti GPU)。

  • Top-down架构:

Top-down模型先通过一些方法 (如RPN、detector等)获取bbox,然后从high-level特征区域中提取ROI特征,进而对区域内的像素进行mask提取,这种模型一般有以下几个问题:

  1. 由于使用了high-level特征图,位置信息容易损失;
  2. 特征和mask之间的局部一致性会丢失,容易导致mis-align;
  3. 冗余的特征提取,不同的bbox会重新提取一次mask;

以Mask-RCNN为例:

  1. 基于Faster-RCNN,属于two-stage架构,RPN获取的bbox用于提取ROI特征;
  2. mask分支与detection分支共享ROIAlign features;

  • Bottom-up架构:

Bottom-up模型先对整图进行逐像素预测(per-pixel prediction),每个像素生成一维特征向量 (embedding)。由于进行的是逐像素级预测、且stride很小,局部一致性和位置信息可以

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值