Efficient Video Instance Segmentation via Tracklet Query and Proposal

摘要

VIS的目标是同时分类,分割,跟踪视频中的多个目标实例。当下clip-level的VIS输入一小段视频,因为利用了多帧的时序上下文信息。效果要明显优于frame-level VIS。但是目前大多数clip-level方法既不能端到端可学习,也不能实时。VIS transformer解决了上述两个问题,但由于其frame-wise的稠密注意力计算,训练时间太长;而且VisTR对多个视频段无法端到端可学习,需要手动的数据关联,将前后clips周的实例tracklet链接起来。本文的EfficientVIS训练推理都很高效,且可端到端学习。核心思想是“tracklet query and tracklet proposal that associate and segment RoIs across space and time by an interative query-video interaction". 并且进一步提出了correspondence学习,使相邻clips的tracklets链接可学习。

Tracklet Query and Proposal

用tracklet queries { q i } i = 1 N \{q_i\}_{i=1}^N {qi}i=1N和tracklet proposals { b i } i = 1 N \{b_i\}_{i=1}^N {bi}i=1N来共同表征一段视频中的每个物体实例。tracklet query q i ∈ R T × C q_i\in R^{T\times C} qiRT×C是通道数为C的embedding向量,tracklet proposal b i ∈ R T × 4 b_i\in R^{T\times 4} biRT×4 是个space-time矩形框。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值