Efficient Video Instance Segmentation via Tracklet Query and Proposal

最新推荐文章于 2023-08-13 00:00:10 发布

平丘月初

最新推荐文章于 2023-08-13 00:00:10 发布

阅读量314

点赞数

分类专栏： paper 文章标签：算法

本文链接：https://blog.csdn.net/u011994454/article/details/125981060

版权

paper 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

摘要

VIS的目标是同时分类，分割，跟踪视频中的多个目标实例。当下clip-level的VIS输入一小段视频，因为利用了多帧的时序上下文信息。效果要明显优于frame-level VIS。但是目前大多数clip-level方法既不能端到端可学习，也不能实时。VIS transformer解决了上述两个问题，但由于其frame-wise的稠密注意力计算，训练时间太长；而且VisTR对多个视频段无法端到端可学习，需要手动的数据关联，将前后clips周的实例tracklet链接起来。本文的EfficientVIS训练推理都很高效，且可端到端学习。核心思想是“tracklet query and tracklet proposal that associate and segment RoIs across space and time by an interative query-video interaction". 并且进一步提出了correspondence学习，使相邻clips的tracklets链接可学习。

Tracklet Query and Proposal

用tracklet queries ${q_i\}_{i=1}^N$ 和tracklet proposals ${b_i\}_{i=1}^N$ 来共同表征一段视频中的每个物体实例。tracklet query $q_i\in R^{T\times C}$ 是通道数为C的embedding向量，tracklet proposal $b_i\in R^{T\times 4}$ 是个space-time矩形框。

平丘月初

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Efficient Video Instance Segmentation via Tracklet Query and Proposal

VIS的目标是同时分类，分割，跟踪视频中的多个目标实例。当下clip-level的VIS输入一小段视频，因为利用了多帧的时序上下文信息。效果要明显优于frame-levelVIS。但是目前大多数clip-level方法既不能端到端可学习，也不能实时。VIStransformer解决了上述两个问题，但由于其frame-wise的稠密注意力计算，训练时间太长；而且VisTR对多个视频段无法端到端可学习，需要手动的数据关联，将前后clips周的实例tracklet链接起来。...
复制链接

扫一扫

专栏目录