视听分割相关论文阅读

1. End-to-End Referring Video Object Segmentation with Multimodal Transformers

RVOS(视频中的参考对象分割)比RIS(图像中的参考对象分割)要困难得多,因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。此外,与基于图像的方法不同,RVOS方法可能需要在多帧中建立被参考对象的数据关联(跟踪),以应对遮挡或运动模糊等干扰。

本文使用标准的基于Transformer的文本编码器从文本查询中提取语言特征,并使用时空编码器从视频帧中提取视觉特征。然后,将这些特征传递到多模态Transformer中,该Transformer输出多个对象预测序列(模型生成一系列预测结果,每个结果对应于视频中的一个对象实例,并且在整个视频帧序列中跟踪这些对象。)。接下来,为了确定哪个预测序列最符合被指对象,我们计算每个序列的文本参考评分。为此,我们提出了一种时间段投票方案,使我们的模型在做出决策时能够专注于视频中更相关的部分。(在视频的不同时间段计算相似度评分,然后根据这些评分对整个序列进行投票或加权求和,聚焦于视频中最相关的部分。)

2. Tracking Anything with Decoupled Video Segmentation

视频分割有两种:端到端的视频分割基于跟踪的逐帧分割

端到端的视频分割方法直接处理整个视频序列,以一次性生成所有帧的分割结果。

基于跟踪的逐帧分割方法首先对每个视频帧进行单独分割,然后通过目标跟踪算法在帧之间关联分割结果。这类方法通常将视频分割问题分解为图像分割和目标跟踪两个步骤。

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值