Learning to Segment Instances in Videos with Spatial Propagation Network

Learning to Segment Instances in Videos with Spatial Propagation Network

Jingchun Cheng  Sifei Liu   Yi-Hsuan Tsai   Wei-Chih Hung   Shalini De Mello
      Jinwei Gu   Jan Kautz    Shengjin Wang    Ming-Hsuan Yang
  Tsinghua University     University of California    Merced 3NVIDIA Research


一、摘要

提出了一个基于深度学习的实例对象分割。

具体分为三步:

1、基于ResNet-101训练了一个通用模型用于前景背景传播;
2、通过在测试视频的第一帧使用增强对象注释微调模型以此训练实例模型和单个对象分割;
为了在视频中区分不同的实例,把实例中的每个对象都计算了像素级score map,每个score map 表明了对象的相似性并且仅在第一步中获得的前景掩模内计算。为精炼score map ,训练了空间传播网络。空间传播网络旨在训练如何基于每个帧中的成对相似性在空间传播粗分割掩码,以外还应用了滤波器,在视频中时间和空间的一致性下识别一个最好的连通区域。
3、通过比较不同实例的得分图确定每个视频中的实例对象分割。


二、介绍

关注的问题是多实例分割问题。

面临两个挑战:

1、不确定性;处理非刚性物体(例如,人类,动物)时,因为这些物体通常具有各种视角,姿势的个体运动。
2、遮挡;
2.1由于前景对象可能在某些帧中完全被遮挡
2.2不同实例之间的遮挡


解决方法:

目前大多数是CNN解决。具体讲是,CNN被训练为遵循视频序列中每帧的FCN结构输出前景/背景分割图。无监督可以训练前景模型,半监督,通过测试视频的第一帧的分割掩码微调模型到特定的前景区域。

问题:

由于前向传播的池化操作,网络生成的分段通常不与实际对象边界对齐。

解决方法:

许多现有的方法应用条件随机场(CRF)作为后处理模块来细化对象边界。

方法的缺陷:

密集连接的CRF需要复杂的潜在功能设计和精细调整的超参数。如端到端可训练的CRF,经常会引入大量内存和计算。

<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值