CVPR 2025 知名视频分割挑战赛启动!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

48cc8db6441f634b12743923fc60a823.png

5a5c03dbea56d1c7ee8e797375109f3c.png

第四届真实世界下的像素级视频理解挑战赛(The 4th PVUW challenge)

主页/Call for Paper:

https://pvuw.github.io/

Workshop论文提交入口:

https://openreview.net/group?id=thecvf.com/CVPR/2025/Workshop/PVUW

赛道1:复杂场景视频目标分割挑战赛(MOSE Challenge):

参赛、数据集下载:

https://codalab.lisn.upsaclay.fr/competitions/21948

赛道2:基于动作描述的指向性视频分割挑战赛(MeViS Challenge):

参赛、数据集下载:

https://codalab.lisn.upsaclay.fr/competitions/21944

大赛简介

第四届 真实世界下的像素级视频理解(Pixel-level Video Understanding in the Wild, PVUW)挑战赛将于 CVPR 2025 期间在美国田纳西州纳什维尔的 Music City Center 举办。像素级场景理解是计算机视觉中的核心问题之一,旨在识别图像中每个像素的类别、掩码和语义。然而,现实世界是动态的,基于视频的,而非静态的图像状态,因此学习进行视频分割对于实际应用来说更为合理和实用。为了推动从图像分割向视频分割的升级,本次 workshop 将发布新的数据集和竞赛,目标是在充满挑战但极具应用价值的开放世界场景下实现像素级视频理解。         

本次挑战赛中设置了两个赛道:复杂场景视频目标分割赛道(MOSE Track)和基于动作描述的指向性视频分割挑战赛(MeViS Track)。在两个挑战赛中,主办方采集了目前最大规模的复杂场景视频目标分割数据集Complex Video Object Segmentation (MOSE) [1] 和基于动作描述的视频分割Motion Expression Video Segmentation (MeViS) [2]。两个数据集均针对两个任务中亟需解决的问题,包含大量的高难度且贴近现实的样本,对视频理解机器学习方法提出挑战。

在挑战赛的同时,本次workshop也将涵盖以下研究主题,并欢迎相关论文投稿:

·图像/视频的语义与全景分割

·交互式图像/视频理解与分割(如基于文本、点击等)

·视频对象/实例分割   

·复杂环境下的视频理解

·语言引导的视频理解

·音频引导的视频分割

·视频场景解析的高效计算方法

·视频中的半监督识别

·评估视频场景解析质量的新指标

·真实世界的视频应用(如自动驾驶、室内机器人、视觉导航等)

目前,两个挑战赛的数据集均已开放下载,测试提交入口也已开放,欢迎参赛者自由测试各种方法!

赛道1:复杂场景视频目标分割(MOSE)

MOSE(复杂场景视频目标分割)聚焦于复杂环境下的视频目标分割问题,旨在推动这一领域的研究与应用。本次大聚焦于配套的MOSE数据集 [1] 。该大规模数据集包含2149个视频片段和5200个目标,共有431,725个高质量的目标分割掩码。视频分辨率为1920×1080,视频长度从5秒到60秒不等。MOSE数据集的显著特点是其复杂的场景,包括目标的消失和重现、不显眼的小物体、严重的遮挡以及拥挤的环境等。相比于上一届比赛,本届比赛的测试数据中将会有全新场景加入,提供更加丰富、更加有挑战性的数据。

数据集主页:https://henghuiding.github.io/MOSE/

参赛网站:https://codalab.lisn.upsaclay.fr/competitions/21948

数据集下载:

https://codalab.lisn.upsaclay.fr/competitions/21948#participate

数据集api代码:https://github.com/henghuiding/MOSE-api 

赛道2:基于动作描述的指向性视频分割(MeViS)

MeViS(基于动作描述的指向性视频分割)赛道也在CVPR2025上同期举行。本次挑战赛的重点是基于动作描述的指向性视频分割,即根据描述物体运动的句子来识别并分割视频内容中的目标物体。MeViS数据集 [2] 是此次比赛的重要组成部分,包含2006个视频片段和443,000个高质量的目标分割掩码,共有28,570句描述8,171个复杂环境下物体运动的句子。在本届赛事中,MeViS赛道也会加入更加有挑战性的全新的场景和视频类别。 

数据集主页:https://henghuiding.github.io/MeViS/

参赛网站:https://codalab.lisn.upsaclay.fr/competitions/21944

数据集下载:

https://codalab.lisn.upsaclay.fr/competitions/21944#participate

Baseline 代码:https://github.com/henghuiding/MeViS         

参赛信息

两个挑战赛均在平台CodaLab上举办。参赛者可以下载数据集至本地,训练测试后将结果提交至赛事平台进行评估。目前,两个挑战赛的数据集均已开放下载,验证集提交入口也已开放,欢迎个人和团队自由测试各种方法。         

测试集提交入口开放时间为 3月15日至3月25日。最终比赛结果将于3月27日公布,两个挑战赛的冠军都将会被邀请在CVPR 2025 Workshop上分享展示。

Workshop论文提交入口也已经开放,欢迎各个领域的投稿!https://openreview.net/group?id=thecvf.com/CVPR/2025/Workshop/PVUW         

[1] MOSE: A New Dataset for Video Object Segmentation in Complex Scenes. ICCV 2023   

[2] MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions. ICCV 2023

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

 
 

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
### CVPR 2025 中与医学图像分割相关的论文和技术 CVPR(Computer Vision and Pattern Recognition)作为计算机视觉领域的重要会议之一,每年都会吸引大量关于医学图像处理的研究成果。对于CVPR 2025而言,其投稿指南已经明确了重要的时间节点以及主题范围[^1]。 #### 关于医学图像分割的技术趋势 近年来,深度学习方法在医学图像分割中的应用取得了显著进步。特别是基于卷积神经网络(CNN)、U-Net架构及其变体的方法,在提高分割精度方面表现优异。此外,自监督学习和半监督学习也逐渐成为解决标注数据不足问题的有效手段。 以下是几个可能涉及的关键技术和方向: 1. **Transformer-based Models**: 越来越多的工作尝试将Vision Transformers引入到医学图像分析任务中,这些模型能够捕捉更全局的空间依赖关系,从而提升复杂结构的识别能力。 ```python import torch class MedicalImageSegmentationModel(torch.nn.Module): def __init__(self, input_channels=3, num_classes=1): super(MedicalImageSegmentationModel, self).__init__() # Example of a simple CNN layer followed by transformer layers. self.cnn_layers = torch.nn.Sequential( torch.nn.Conv2d(input_channels, 64, kernel_size=3), torch.nn.ReLU(), torch.nn.MaxPool2d(kernel_size=2) ) self.transformer_encoder = torch.nn.TransformerEncoder(...) def forward(self, x): cnn_output = self.cnn_layers(x) transformer_output = self.transformer_encoder(cnn_output.flatten(2).permute(2, 0, 1)) return transformer_output.permute(1, 2, 0).view_as(cnn_output) ``` 2. **Few-shot Learning & Meta-Learning**: 针对特定疾病或罕见病例的数据稀缺情况,少样本学习和元学习提供了灵活适应新场景的能力。这类技术允许算法仅通过少量样本来快速调整至新的分割目标上。 3. **Multi-modal Fusion Techniques**: 当前很多研究致力于融合多模态成像资料(如MRI与CT扫描),以获得更加全面的信息表示形式并改善最终预测效果。 #### 获取具体论文资源的方式 为了找到确切属于CVPR 2025内的medical image segmentation相关文章,可以采取如下策略: - 访问官方Open Access Library页面浏览最新收录列表; - 使用Google Scholar或其他学术搜索引擎输入关键词组合:"Medical Image Segmentation", "CVPR 2025"; - 加入专业论坛或者社交媒体群组讨论区分享心得体验;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值