CVPR 2025 | 知名视频分割挑战赛PVUW第四届比赛已启动！

最新推荐文章于 2025-04-30 12:45:32 发布

我爱计算机视觉

最新推荐文章于 2025-04-30 12:45:32 发布

阅读量132

点赞数

文章标签：音视频

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247628103&idx=2&sn=399857a0361adda8d38de5529872238b&chksm=97791929e314308e3041aeb33f37b7e528a55a3164ede3b46bf0e50cdada218b8536c1be7769&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

第四届真实世界下的像素级视频理解挑战赛（The 4th PVUW challenge）

主页/Call for Paper：https://pvuw.github.io/
赛道1：复杂场景视频目标分割挑战赛（MOSE Challenge）：
- 参赛、数据集下载：https://codalab.lisn.upsaclay.fr/competitions/21948
赛道2：基于动作描述的指向性视频分割挑战赛（MeViS Challenge）：
- 参赛、数据集下载：https://codalab.lisn.upsaclay.fr/competitions/21944

大赛简介

第四届真实世界下的像素级视频理解（Pixel-level Video Understanding in the Wild, PVUW）挑战赛将于 CVPR 2025 期间在美国田纳西州纳什维尔的 Music City Center 举办。

像素级场景理解是计算机视觉中的核心问题之一，旨在识别图像中每个像素的类别、掩码和语义。然而，现实世界是动态的，基于视频的，而非静态的图像状态，因此学习进行视频分割对于实际应用来说更为合理和实用。

为了推动从图像分割向视频分割的升级，本次 workshop 将发布新的数据集和竞赛，目标是在充满挑战但极具应用价值的开放世界场景下实现像素级视频理解。

本次挑战赛中设置了两个赛道：复杂场景视频目标分割赛道（MOSE Track）和基于动作描述的指向性视频分割挑战赛（MeViS Track）。

在两个挑战赛中，主办方采集了目前最大规模的复杂场景视频目标分割数据集Complex Video Object Segmentation (MOSE) [1] 和基于动作描述的视频分割Motion Expression Video Segmentation (MeViS) [2]。

两个数据集均针对两个任务中亟需解决的问题，包含大量的高难度且贴近现实的样本，对视频理解机器学习方法提出挑战。

在挑战赛的同时，本次workshop也将涵盖以下研究主题，并欢迎相关论文投稿：

图像/视频的语义与全景分割
交互式图像/视频理解与分割（如基于文本、点击等）
视频对象/实例分割
复杂环境下的视频理解
语言引导的视频理解
音频引导的视频分割
视频场景解析的高效计算方法
视频中的半监督识别
评估视频场景解析质量的新指标
真实世界的视频应用（如自动驾驶、室内机器人、视觉导航等）

目前，两个挑战赛的数据集均已开放下载，测试提交入口也已开放，欢迎参赛者自由测试各种方法！

赛道1：复杂场景视频目标分割（MOSE）

MOSE（复杂场景视频目标分割）聚焦于复杂环境下的视频目标分割问题，旨在推动这一领域的研究与应用。

本次大聚焦于配套的MOSE数据集 [1] 。该大规模数据集包含2149个视频片段和5200个目标，共有431,725个高质量的目标分割掩码。视频分辨率为1920×1080，视频长度从5秒到60秒不等。

MOSE数据集的显著特点是其复杂的场景，包括目标的消失和重现、不显眼的小物体、严重的遮挡以及拥挤的环境等。

相比于上一届比赛，本届比赛的测试数据中将会有全新场景加入，提供更加丰富、更加有挑战性的数据。

数据集主页：https://henghuiding.github.io/MOSE/
参赛网站：https://codalab.lisn.upsaclay.fr/competitions/21948
数据集下载：https://codalab.lisn.upsaclay.fr/competitions/21948#participate
数据集api代码：https://github.com/henghuiding/MOSE-api

赛道2：基于动作描述的指向性视频分割（MeViS）

MeViS（基于动作描述的指向性视频分割）赛道也在CVPR2025上同期举行。

本次挑战赛的重点是基于动作描述的指向性视频分割，即根据描述物体运动的句子来识别并分割视频内容中的目标物体。

MeViS数据集 [2] 是此次比赛的重要组成部分，包含2006个视频片段和443,000个高质量的目标分割掩码，共有28,570句描述8,171个复杂环境下物体运动的句子。

在本届赛事中，MeViS赛道也会加入更加有挑战性的全新的场景和视频类别。

数据集主页：https://henghuiding.github.io/MeViS/
参赛网站：https://codalab.lisn.upsaclay.fr/competitions/21944
数据集下载：https://codalab.lisn.upsaclay.fr/competitions/21944#participate
Baseline 代码：https://github.com/henghuiding/MeViS

参赛信息

两个挑战赛均在平台CodaLab上举办。参赛者可以下载数据集至本地，训练测试后将结果提交至赛事平台进行评估。目前，两个挑战赛的数据集均已开放下载，验证集提交入口也已开放，欢迎个人和团队自由测试各种方法。

测试集提交入口开放时间为 3月15日至3月25日。最终比赛结果将于3月27日公布，两个挑战赛的冠军都将会被邀请在CVPR 2025 Workshop上分享展示。

Workshop论文提交入口即将开放，请关注官方网站获取地址https://pvuw.github.io/。

[1] MOSE: A New Dataset for Video Object Segmentation in Complex Scenes. ICCV 2023
[2] MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions. ICCV 2023

END