ICCV2023|新数据集 MeViS:基于动作描述的视频分割

关注公众号,发现CV技术之美

随着各种视觉语言大模型的蓬勃发展,构建强大的多模态模型以解决实际问题已成为明显的趋势。多模态大模型,如 CLIP 和 SAM,在以自然语言(文本)作为提示的图像识别和分割任务上展现出了卓越的性能。然而,当面对复杂场景的视频以及包含动作行为等描述信息的自然语句时,比如 “找出违规掉头的那些车辆” ,模型是否能够准确地从视频中找到并分割出这些目标物体呢?

为了探究这个问题,来自南洋理工大学的研究团队构建了一个 专注于复杂场景中动作描述的大规模语言-视频分割数据集 MeViS (Motion expressions Video Segmentation)

76870ae1d67c7f4192c3e6601e77a4ef.png
  • 论文名称:MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

  • 论文地址:https://arxiv.org/abs/2308.08544

  • 项目主页:https://henghuiding.github.io/MeViS/

68d99e22777144d3a25b7eb3785690b5.gif
图 1给定一段视频和一个描述动作的句子“玩逗猫棒的那只猫”,MeViS要求找到并分割这只猫

自然语言引导的视频分割,即language-guided video segmentation或者RVOS (referring video object segmentation)是计算机视觉领域的新兴热点问题。其主要目标是通过分析自然语句提供的目标物体在视频中的某些线索,精确地定位、追踪、并分割自然语句所指向的目标物体,获目标物体在整个视频序列中每一帧的高质量mask,如图1所示的MeViS数据集示例。

之前的RVOS数据集使用的视频中物体数量较少且大都为显著物体,同时倾向于使用描述物体静态特征(如颜色)的句子,这使得目标物体很容易通过单一图像帧的观察就能辨别出来。这种情况意味着相对于视频的动态属性未被充分利用,导致RVOS任务演变为一种语言图像分割任务。相对于现有的RVOS数据集,MeViS的主要特点 是使用自然语句来描述物体的动态特征,并显著增加视频场景复杂性

因此,MeViS能够有效评估语言-视频分割算法在复杂场景下对自然语句和视频中 动态信息的推理能力 ,推动语言-视频分割在更真实场景下的应用研究。

MeViS数据集简介

MeViS包含共2,006个视频,对视频集中的8,171个物体提供了总共28,570个自然描述语句。从下表中可以看出,MeViS在 自然语句数量、物体数量、Mask规模等方面显著超越其他数据集

53f3b6d2250b45de15be86bd00a8efc7.png

同时,MeViS所提供的近3万个自然语句,主要关注描述目标物体的动态特性。如下图2展示的MeViS语句词云所示,MeViS包含大量描述动态属性的单词,如walking和moving等。

b8e0305d8238170ef510648f2b6d235b.png
图 2 MeViS中包含大量描述动态属性的单词,如walking, moving, playing等

不仅在数据集规模上,MeViS 在视频难度上也尤为突出 。从表中的单个视频平均物体数量 (Object/Video) 一列来看,MeViS中的视频包含的物体显著高于其他数据集,这极大增加了定位目标物体的难度。同时,不同于以往数据集的每个句子仅指向一个目标物体,MeViS进一步增加了 指向多个目标物体的描述语句 ,使得平均每句话指向的目标物体数量达到了1.59,大幅增加了对语言-视频理解的要求。图3中的例子展示了视频内容复杂度上升带来的质量和难度的提升。

4b49faa50d7d416949fb2a4995d6dab4.png
图3 MeViS (a)和Refer-YouTube-VOS (b)在动态描述上的对。MeViS句子所描述的物体“那些转身的长颈鹿”需要观察一段视频才能找到,Refer-YouTube-VOS由于视频难度的原因,即使提供了动态描述,也可以通过类别名称,如“人”,在单帧图像中找到。

此外,在保证目标物体的多样性和复杂性的同时,MeViS也丰富了视频长度的多样性。数据集视频平均时长达到 13.16秒 ,显著高于 Refer-YouTube-VOS 数据集的 4.28 秒。

更多MeViS可视化

下面介绍一些 MeViS 数据集中的典型视频。

在下面的 MeViS 视频中,出现了三只外观非常相似的鸟。通过颜色、形状等静态特征很难描述这些目标物体,因此在这种场景下, 传统的语言-图像分割模型面临巨大挑战 。然而,通过描述“飞走的那只鸟”等动态特征,却能轻松准确地捕捉目标物体的特点。这突显了动态特征描述在视频理解中的实用性、必要性和重要性

161694bbe908eedb320acefecac52c15.gif

如下MeViS视频展示了两艘相向行驶的船,“向右行驶的那艘船”这种语句描述无法通过观察单帧图像定位目标船只, 展示了在MeViS数据集中获取时序信息的重要性

7e7fa7cb5bdc8dbf17abff9c99874ea5.gif

更多可视化片段参见项目主页。

方法

为了迎接 MeViS 数据集所带来的新挑战,研究人员提出了一种基于 object embedding 获取时序动态信息的基线方法:Language-guided Motion Perception and Matching (LMPM)。

如下图所示,LMPM首先使用语言特征检测单帧图像中尽可能多的潜在目标对象,然后利用 object embeddings 来表示这些目标对象,并通过 object embeddings之间的信息交互来获取时序信息。接着,通过语言特征来关联各帧的 object embeddings,形成 object trajectories。

最后通过对比语言特征和各个 object trajectories 之间的相似度,选择相似度高于阈值的物体作为最终输出,并为其生成mask。

该方法的代码已经开源,可在 https://github.com/henghuiding/MeViS 获取。

6c60d85ee9299a9b0fbdf212a5843dec.png

实验

MeViS 数据集分为 Train,Valu,Val,和 Test 四个部分,其中 Train 和 Valu 的数据标注已公开,分别作为模型训练和线下用户自测。Val 结果需要将生成的 mask PNG 图片按要求整理并提交到 CodaLab,由数据集组织方进行在线评估。Test 部分将作为未来比赛用途。

如下为 MeViS 数据集 Val 部分目前的 benchmark 结果。最优结果仅为 37.2%,这表明仍存在巨大的发展和研究空间。

49347be510f059645a0516c6a12320c2.png

更多实验结果请见论文。

总结

研究者创建了一个名为 MeViS 的大规模语言-视频分割数据集,其重点是推动语言-视频分割在更真实且复杂的场景中的应用研究,特别侧重于 动作特征的推理 。基于提出的 MeViS 数据集,研究者对现有语言-视频分割方法进行了基准测试并进行了全面比较。发现在视频场景更加复杂以及语言偏向动作描述时,会给现有算法带来了巨大挑战。期待 MeViS 能够启发更多研究人员进行复杂场景下的语言-视频理解研究。

更多细节请见论文。

fcda82c2147704613efda115723f4f58.jpeg

END

欢迎加入「视频分割交流群👇备注:Seg

f5ac4222298046d34ad7997c42a704fe.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ICCV (International Conference on Computer Vision) 是计算机视觉领域的重要国际会议,每年都会汇聚最的研究成果。ICCV 2023 版本中,医学图像分割作为其中一个热门研究方向,关注的是如何使用计算机视觉技术来自动分析和分割医学影像中的结构或病变,这对于疾病诊断、手术规划和治疗效果评估具有重要意义。 在ICCV 2023上,可能会探讨以下几个方面: 1. **深度学习方法**:深度学习特别是卷积神经网络(CNN)和递归神经网络(RNN)在医学图像分割中的应用会持续发展,比如U-Net、SegNet、Unet++等模型的改进和集成。 2. **弱监督和半监督学习**:减少标注数据的需求,通过利用大量未标注或部分标注的图像来提升分割性能。 3. **注意力机制**:自注意力机制可能会被用于更精准地聚焦于图像中的关键区域,提高分割的精度。 4. **医学图像的多模态融合**:结合不同类型的医学图像,如CT、MRI、PET等,以获得更全面的特征信息。 5. **迁移学习与预训练模型**:利用预训练在大规模数据集(如ImageNet)上的模型,然后在医疗领域的特定任务上微调。 6. **算法评估与挑战**:如何设计有效的评价指标和基准,以及组织针对特定医学图像分割任务的比赛。 相关问题--: 1. ICCV 2023中有哪些型的医学图像分割算法被提出? 2. 在医学图像分割中,如何处理数据不平衡的问题? 3. 有没有在ICCV 2023上展示的成功案例,证明了医学图像分割技术的实际临床价值?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值