CVPR 2021 End-to-End Video Instance Segmentation with Transformers

动机

1、实例分割是计算机视觉的基本任务之一。 虽然在图像分割方面取得了重大进展,在视频中分割实例方面,还需要额外做更多的研究进行攻克。

2、最先进的方法通常是开发复杂的流程来解决这项任务。自上而下的方法遵循逐检测跟踪的范式,严重依赖于图像级别的实例分割模型复杂的人工设计规则来关联实例。 自下而上的方法通过聚类学习的像素嵌入来分离对象实例。 因为严重依赖在密集的预测质量上,这些方法通常需要多个步骤来迭代生成掩码,这使得它们变慢。 因此,为了解决VIS任务,使用一个简单的、端到端可训练的VIS框架是大势所趋。

方法简介

视频帧包含比单一图像更丰富的信息,如运动模式和实例的时间一致性,提供有用的线索,例如分割和分类。同时,学习更好的实例特征有利于跟踪实例。本质上,实例分割和实例跟踪都涉及了相似性学习,即实例分割是学习像素级的相似性,实例跟踪是学习相似性实例之间的关系。因此,在同一实例分割的框架下,可以无缝而自然地实现了实例跟踪。 Transformers以自注意力为核心,旨在基于它们之间的所有配对相似性学习和更新特征。Transformers在NLP被广泛地应用于序列学习,并也逐渐应用于视觉领域中。因此,将图像、视频等模式(如点云处理)放到Transformers框架中,统一大多数不同的视觉任务成为可能。Transformers能够建模远程依赖关系,因此可以很自然地应用于视频来学习跨多个帧的时间信息。由于Transformers提供了构建块,它能够为VIS设计一个简单和端到端的框架,因此,本论文提出了一种新的基于Transformers的视频实例分割框架VisTR,不仅你能够解决这两个子任务并相互受益,而且有利于任务的执行效果。该框架将VIS任务视为

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值