CVPR 2024 竞赛冠军！运动表达引导视频分割方法

最新推荐文章于 2024-10-02 22:46:43 发布

Amusi（CVer）

最新推荐文章于 2024-10-02 22:46:43 发布

阅读量95

点赞数

文章标签：音视频

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247601597&idx=2&sn=40fc1c675d2033ccf30fdd43ff4f212f&chksm=f83bc750465fdd40c73930d166a0c125c5c05964985dbc4ce5a4a4d85b361fc5806075fb0002&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

在CVPR 2024 像素级视频理解（PVUW）挑战赛中，来自塔普智能（Tapall.ai）、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分割（MeViS）赛道上获得冠军。该团队提出的技术专为解析由自然语言表达引导的视频内容而设计，致力于提高视频分割的准确性和效率。相关技术报告和代码均已开源。

竞赛及数据集：

https://henghuiding.github.io/MeViS/ChallengeCVPR2024

技术报告：

https://arxiv.org/pdf/2406.07043

代码：

https://github.com/Tapall-AI/MeViS_Track_Solution_2024

技术动机与挑战

随着视频内容的复杂性日益增加，传统的视频分割技术难以准确识别和跟踪视频中的动态对象。特别是在长视频和复杂场景中，如何根据自然语言的描述来精确分割特定对象，一直是计算机视觉领域的一大挑战。此前的研究多聚焦于短视频或静态属性较多的视频，未能充分利用视频的时间信息。

因此，MeViS基准应运而生，旨在通过视频的时间属性和自然语言的动态表达来指导视频对象的精确分割。这要求分割方法不仅关注对象的静态特征，如位置和外观，更重视动态变化，如运动和行为，从而为长视频分析提供新的解决方案。

方法和实施

这项技术的核心在于使用了基于Transformer的多模态视频分割模型，这是一种高度优化的、端到端的模型，能够有效利用对象序列与文本之间的交互，分析长视频中的动态内容。为了提升目标感知能力，该团队首先在大规模数据集包含Ref-COCO、Ref-COCO+、Ref-COCOg和Ref-YouTube-VOS上预训练分割模型。在此基础上，针对MeViS数据进行微调，提升模型对视频/语言动态信息的分析能力，以及对多目标语言描述的适应能力。经过两阶段训练，分割模型不仅能够关注单个视频帧内的信息，也能捕捉和利用视频帧之间的时间关系。

为缓解分割模型在处理长视频时的计算负担，研究团队提出了帧采样的推理方案。通过将输入视频采样成多个子集，并对每个子集分别进行语言指导的对象分割，从而优化了模型的运行效率和效果。在采样过程中，使用间隔采样的方式，以确保每个子集都覆盖视频的全局时间上下文，实现语言信息与视频信息的充分交互。通过该策略，模型能够在有限的计算资源下，有效地模拟并处理长时的视频序列，这对于现实应用中的视频分析尤为重要。

图 1：方法整体框架图。输入视频和描述目标对象的文本，方案首先将视频帧进行间隔采样，得到视频子集（图中以两个子集为例，分别使用绿色和蓝色框标识）。推理过程中，每个子集被独立分割，对结果进行拼接后得到最终的目标分割输出。

实验结果

该方案在MeViS测试数据上达到了0.5447 的J&F准确率，排名第一。实验结果显示，即使在包含多个同类实例和长视频的复杂场景中，该方案也能有效识别和分割目标对象。进一步的消融实验表明，通过合理的采样策略和精细的模型调整，能够进一步提升模型对时间信息的处理能力，改善长视频对象分割的准确性。这些实验结果不仅验证了该方案在技术上的有效性，也为未来在动态视频理解和自然语言驱动的视频分析领域的研究提供了新的思路和方法。

图 2：方法在MeViS valid set上的可视化结果。百分比表示对应视频帧在视频中的位置。黄色和绿色的掩码，分别来自黄色和绿色文字引导的视频分割。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

Amusi（CVer）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫