视听分割相关论文阅读

最新推荐文章于 2024-08-31 00:35:50 发布

LiXiang like coding吗

最新推荐文章于 2024-08-31 00:35:50 发布

阅读量540

点赞数 6

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lx741602698/article/details/139722177

版权

1. End-to-End Referring Video Object Segmentation with Multimodal Transformers

RVOS（视频中的参考对象分割）比RIS（图像中的参考对象分割）要困难得多，因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。此外，与基于图像的方法不同，RVOS方法可能需要在多帧中建立被参考对象的数据关联（跟踪），以应对遮挡或运动模糊等干扰。

本文使用标准的基于Transformer的文本编码器从文本查询中提取语言特征，并使用时空编码器从视频帧中提取视觉特征。然后，将这些特征传递到多模态Transformer中，该Transformer输出多个对象预测序列（模型生成一系列预测结果，每个结果对应于视频中的一个对象实例，并且在整个视频帧序列中跟踪这些对象。）。接下来，为了确定哪个预测序列最符合被指对象，我们计算每个序列的文本参考评分。为此，我们提出了一种时间段投票方案，使我们的模型在做出决策时能够专注于视频中更相关的部分。（在视频的不同时间段计算相似度评分，然后根据这些评分对整个序列进行投票或加权求和，聚焦于视频中最相关的部分。）

2. Tracking Anything with Decoupled Video Segmentation

视频分割有两种：端到端的视频分割和基于跟踪的逐帧分割。

端到端的视频分割方法直接处理整个视频序列，以一次性生成所有帧的分割结果。

基于跟踪的逐帧分割方法首先对每个视频帧进行单独分割，然后通过目标跟踪算法在帧之间关联分割结果。这类方法通常将视频分割问题分解为图像分割和目标跟踪两个步骤。

LiXiang like coding吗

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
视听分割相关论文阅读

RVOS（视频中的参考对象分割）比RIS（图像中的参考对象分割）要困难得多，因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。此外，与基于图像的方法不同，RVOS方法可能需要在多帧中建立被参考对象的数据关联（跟踪），以应对遮挡或运动模糊等干扰。本文使用标准的基于Transformer的文本编码器从文本查询中提取，并使用时空编码器从视频帧中提取。然后，将这些特征传递到多模态Transformer中，该Transformer输出。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。