VidSitu数据集_situation recognition数据集-CSDN博客

本文链接：https://blog.csdn.net/mr___wq/article/details/130493542

为了方便后续的科研需求，现在对VidSitu这个数据集进行相关调研。

这个数据集源于这篇论文《Visual Semantic Role Labeling for Video Understanding》：

2104.00990.pdf (arxiv.org)https://arxiv.org/pdf/2104.00990.pdf这个数据集可以在下面获取：

VidSitu Dataset: Situation Recognition in Videoshttps://vidsitu.org/以下只是对这个数据集进行简单介绍，如果想获取更多信息，请参见这篇论文或者前往数据集官网。

摘要

本文提出一种新的框架，用于使用视觉语义角色标注来理解和表示视频中相关的显著事件。作者将视频表示为一组相关事件，其中每个事件由一个动词和多个实体组成，这些实体履行与该事件相关的各种角色。为了研究视频或VidSRL中语义角色标注的挑战性任务，本文提出了VidSitu基准，这是一个大规模视频理解数据源，其中有29K个10秒的电影片段，用动词和进行了丰富的注释，每2秒进行语义角色标注。实体在电影片段内的事件中被共同引用，事件通过事件关系相互连接。VidSitu剪辑是从大量的电影集合(3K)中提取的，并被选择为既复杂(视频中4.2个独特的动词)又多样化(200个动词每个有100多个注释)。与其他公开可用的视频理解基准、几个说明性基线相比，对该数据集进行了全面的分析，并评估了一系列标准视频识别模型。

介绍

VidSitu，是一个大型视频理解数据集，包含从一组不同的3K电影中提取的超过2900个视频。VidStum中的视频正好有10秒长，并用5个动词进行注释，对应于视频中5个2秒间隔内发生的最显著的事件。每个动词注释都附有一组角色，这些角色的值使用自由形式文本进行注释。与从固定词汇中派生的动词注释不同，自由形式的角色注释允许使用指称表达式（例如，穿着长袍的男孩）来消除视频中的实体的歧义。视频中五个片段中的任何一个片段中出现的实体都会使用相同的表达式进行一致引用。最后，数据集还包含事件关系注释，捕捉因果关系（事件Y是由事件X引起的/对事件X的反应）和偶然性（事件X是事件Y的先决条件）。VidStum的主要亮点包括：

多样化的情况：VidStuon拥有大量的动词词汇（由1500个独特动词，200个动词至少有100个事件注释）和实体（5600个独特名词，350个名词出现在至少100个视频中）；

复杂情况：每个视频都注释了5个相互关联的事件，平均有4.2个独特的动词、6.5个独特的实体和；

丰富的注释：VidSitu提供了具有实体共同引用和事件关系标签的结构化事件表示（每个事件3.8个角色）。

提出的原因：为了促进对VidSRL的进一步研究，提供一个全面的基准，支持解决VidSRL所需的各种能力的部分评估（针对评估问题）。

主要贡献

用于理解视频中复杂情况的VidSRL任务形式
管理注释丰富的VidStum数据集，该数据集由不同和复杂的情况组成，用于研究VidSRL；
建立评估VidSRL所需关键能力的评估方法，并为每个使用最先进组件的组件建立基线。数据集和代码可在vidsitu.org上公开获取。

数据集标注示例

显著事件的时间尺度。在视频中，什么构成显著事件往往是模棱两可和主观的。例如，给定图1中的10秒剪辑，人们可以围绕原子动作定义细粒度事件，如“转向(事件2第三帧)或将序列视为涉及“战斗”的更全面的观点。由于缺乏对事件时间尺度的约束，这种模糊性使注释和评估具有挑战性。我们通过将显著事件的选择限制为每个固定时间间隔的一个事件来解决这种模糊性。之前识别原子动作[21]的工作依赖于1秒间隔。用于标注事件的时间间隔的适当选择是能够对复杂视频进行丰富的描述，同时避免偶然的原子动作。我们定性地观察到，2秒的时间间隔在获得描述性事件和系统评估所需的客观性之间取得了很好的平衡。因此，对于每个10秒的片段，注释了5个事件 $\left \{ E_i \right \}_{i=1}^{5}$ 。论文的第四部分主要讲述了数据集的管理、分析和统计，不做过多介绍。