【论文笔记】AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

最新推荐文章于 2025-08-18 19:34:35 发布

CSPhD-winston-杨帆

最新推荐文章于 2025-08-18 19:34:35 发布

阅读量3.7k

点赞数 2

CC 4.0 BY-SA版权

文章标签：人工智能 ava 动作检测数据集

本文链接：https://blog.csdn.net/WhiffeYF/article/details/113602616

本文介绍了一个新视频数据集AVA，该数据集具有时空定位的原子视觉动作，旨在推动人类动作识别研究。数据集包含了430个电影片段，密集标注了80种动作，为动作识别系统的开发提供了丰富的资源。

视频人类动作识别是计算机视觉领域中的一个基础问题，但也具备较大的挑战性。现有的数据集不包含多人不同动作的复杂场景标注数据，今日谷歌发布了精确标注多人动作的数据集——AVA，希望能够帮助开发人类动作识别系统。

摘要

本文介绍了一种具有时空定位（Spatio-temporally Localized）的原子视觉动作(AVA)视频数据集。这里的原子视觉动作即为谷歌推出的一个新的视频数据库，名称为“原子视觉行为(AVA)。AVA数据集在430个15分钟的视频剪辑中密集地注释了80个动作，动作在空间和时间上进行了定位，标注了1.58万个动作标签，每个人都有多个动作标签出现。

我们的数据集的关键特征是:

(1)定义原子视觉动作，而不是复合动作;

(2)精确的时空标注，每个人可能有多个标注;

(3)在15分钟的视频剪辑中对这些行为进行详尽的注释;

(4)跨连续段的时间连接人;

(5)利用电影收集各种动作表现形式。

AVA数据集与用于时空动作识别的现有数据集不同，后者通常为短视频剪辑中的复合动作提供稀疏标注。

AVA以其逼真的场景和动作的复杂性，暴露了现在动作识别的内在困难。为了对动作识别进行基准测试，我们提出了一种新的动作定位方法，该方法建立在当前最先进的方法之上，并在JHMDB和UCF101-24类别上演示了更好的性能。虽然在现有数据集上设置了一个新的技术状态，但在AVA上的总体结果很低，只有15.6%的mAP。这强调了开发视频理解新方法的必要性。

1 介绍

我们引入了一个新的带注释的视频数据集AVA，以推进动作识别研究(见图1)。
在这里插入图片描述

图一：AVA数据集样本帧中的边框和动作标注。每个边界框都与1个姿态动作(橙色)、0-3个与对象的交互(红色)和0-3个与他人的交互(蓝色)相关联。注意，有些操作需要时间上下文来准确地标记。

标注以人为中心，采样频率为1hz。每个人都使用一个边界框进行定位，附加的标签对应于actor执行的(可能是多个)动作:一个动作对应于actor的姿势(橙色文本)——站立、坐着、行走、游泳等。还可能有额外的操作，如响应与对象的交互(红色文本)或与他人的交互(蓝色文本)。在一个包含多个参与者的框架中，每个人都被分别标记。

要标记一个人执行的操作，关键选择是标注词汇表，而标注词汇表又由分类操作的时间粒度（时间粒度用于指定一组数据的时间限定）决定。我们使用短片段(以关键帧为中心±1.5秒)为中间帧中的动作标记提供时间上下文。这使得标注器能够使用移动线索来消除在静态框架中无法解决的歧义操作，例如拾取或放下。我们保持时间上下文相对简短，因为我们对(时间上的)物理动作的精细标注感兴趣，这激发了“原子视觉动作”(AVA)。词汇表由80个不同的原子视觉动作组成。我们的数据集来自于430部不同电影的第15到30分钟的时间间隔，给定1赫兹的采样频率，我们可以为每部电影提供近900个关键帧。在每个关键帧中，每个人都被AVA词汇表中的(可能是多个)动作标记。每个人都被连接到连续的关键帧，以提供动作标签的短时间序列。

原子动作类别 Barker & Wright 在他们对堪萨斯州一个小镇居民日常生活中的“行为事件”的经典研究中注意到了活动的等级性质(图2)。在最好的水平上，动作由原子体移动或对象操作组成，但在更粗略的层次上，最自然的描述是意图性和目标导向行为
在这里插入图片描述
图2：此图说明了活动的层次性质。来自Barker and Wright [3]。

这种层次结构使得定义动作标签的词汇表不合适，导致我们领域的进展比物体识别缓慢;详尽地列出高层次的行为是不切实际的。然而，如果我们将自己限制在合适的时间范围内，那么行动就会具有非常明显的物理特征和视觉特征。在这里，我们以1hz标注关键帧，因为这足够密集，可以捕获动作的完整语义内容，同时使我们能够避免对动作边界进行不切实际的精确时间标注。THUMOS challenge 观察到，动作边界(不像对象)本质上是模糊的，导致了显著的标注者之间的分歧。相比之下，标注器可以很容易地确定(使用1.5秒的上下文)一个框架是否包含给定的动作。有效地，AVA将动作起始点和结束点定位到0.5秒的可接受精度。

以人为中心的动作时间序列虽然像树木倒下这样的事件与人无关，但我们关注的是人的活动，将其视为单一的行为主体。可能有很多人，就像在体育运动中，或者两个人拥抱，但每个人都是个体选择的代理，所以我们分别对待每个人。随着时间的推移分配给一个人的动作标签为时间建模提供了丰富的数据来源。

标注的电影理想情况下，我们希望行为“在野外”。我们没有，但电影是一个令人信服的近似，特别是当我们考虑到流派的多样性和拥有蓬勃发展的电影产业的国家。我们认为在这个过程中会有一些偏见。故事必须有趣，并且通过镜头的并置来传达电影语言的语法。也就是说，在每一个镜头中，我们都可以期待人类行为的展开序列，这在一定程度上代表了现实，由有能力的演员传达。AVA补充了来自用户生成视频的当前数据集，因为我们期望期待电影包含更广泛的活动，适合讲述不同的故事。

详尽的行动标签我们在所有关键帧中标记所有人的所有动作。这自然会导致行动类别之间出现Zipf法则类型的不平衡。比起令人难忘的动作(舞蹈)，游戏中会出现更多典型动作(站立或坐着)的例子，但这就是游戏应有的样子!识别模型需要在真实的“长尾”动作分布上操作，而不是用人工平衡的数据集来支撑。我们协议的另一个结果是，由于我们不通过显式查询互联网视频资源来检索动作类别的例子，我们避免了某种偏见:开门是电影剪辑中经常发生的常见事件;然而，在YouTube上被贴上这样标签的开门行动，在某种程度上可能是值得关注的，从而使其与众不同。

Zipf法则：在自然语言的语料库里，一个单词出现的频率与它在频率表里的排名成反比。所以，频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。

长尾:少数类(头类)占用大部分数据，而大多数类(尾类)只有少量的数据

我们相信AVA，以其现实的复杂性，暴露了隐藏在该领域许多流行数据集的动作识别固有的困难。一个人在典型背景下进行视觉突出动作(如游泳)的视频剪辑很容易与一个人跑步的视频剪辑区分开来。而在AVA中，我们会遇到多个角色，他们的图像尺寸很小，他们的动作只有细微的不同，比如触摸和拿着一个物体。为了验证这一直觉，我们在JHMDB、UCF101-24类别和AVA上进行了比较基准测试。我们用于时空动作定位的方法建立在多帧方法的基础上，但使用I3D卷积对tubelets进行分类。我们在JHMDB和UCF101-24类别上获得了最先进的性能，而在AVA上的mAP只有15.6%。AVA数据集已经在https: //research.google.com/ava/上公开发布。

tubelets:与静态对象检测中的bounding box类似，视频中的对应对象称为tubelets，本质上是bounding boxes提名的序列。

2 相关工作

动作识别的数据集，最流行的动作分类数据集，如KTH [35]， Weizmann ， Hollywood-2， HMDB， UCF101由短剪辑组成，手工修剪以捕捉单个动作。这些数据集非常适合训练全监督、全剪辑、强制选择的视频分类器。最近，像TrecVid MED， sport-1m， YouTube-8M， Something-something ，SLAC ， Moments in Time，和Kinetics这样的数据集集中在大规模视频分类上，通常使用自动生成——因此可能有噪声——标注。他们的目的很有价值但满足的需求与AVA不同。

一些最近的工作已经转向时间定位。ActivityNet，THUMOS，MultiTHUMOS和Charades使用大量未裁剪的视频，每一个包含多个动作，从YouTube (ActivityNet, THUMOS, MultiTHUMOS)或众包演员(Charades)获得。数据集为每个感兴趣的动作提供时间(而不是空间)定位。AVA不同于它们，因为我们为每个执行动作的对象提供时空标注，而标注在15分钟的剪辑中密集。

一些数据集，如CMU， MSR Actions，UCF Sports和JHMDB为短视频在每帧中提供时空标注。与我们的AVA数据集的主要区别是:少量的动作;少量的视频剪辑;而且视频很短。此外，动作是复合的(如撑杆跳)，而不是像在AVA中那样是原子的。最近的扩展，如UCF101， DALY和Hollywood2Tubes，在未裁剪视频中评估时空定位，这使得任务显著困难，并导致性能下降。然而，动作词汇表仍然局限于有限数量的复合动作。此外，它们并没有密集地涵盖行动;一个很好的例子是UCF101中的BasketballDunk，其中只有扣篮球员被注释。然而，现实的应用程序通常需要对所有人的原子动作进行连续的标注，然后可以将这些标注组合到更高级别的事件中。这促使AVA在超过15分钟的剪辑中进行详尽的标记。

AVA还与静态图像动作识别数据集有关，这些数据集在两方面受到限制。首先，缺乏运动会使行动消除歧义变得困难。其次，将复合事件建模为原子动作序列在静态图像中是不可能的。这可能超出了我们的讨论范围，但在许多现实世界的应用中，AVA确实提供了训练数据，这显然是需要的。

时空动作定位方法。最近的方法依赖于经过训练的目标检测器，在帧级别使用two-stream variant区分动作类，分别处理RGB和流数据。每帧检测的结果，然后链接使用动态规划或跟踪。所有这些方法都依赖于整合帧级检测。最近，多帧方法出现了:Tubelets联合估计在几帧上的定位和分类，T-CNN使用3D卷积估计短管，微管依赖于两个连续的帧，姿态引导的3D卷积将姿态添加到 two-stream方法。我们建立在时空管的思想之上，但采用最先进的I3D卷积和更快的R-CNN区域建议，以超越最先进的状态。

3 数据收集

数据集的标注包括五个阶段:动作词汇生成、电影和片段选择、人的 bounding box标注、人链接和动作标注。

在这里插入图片描述
图3 操作标注的用户界面。详情见第3.5节。

3.1 动作词汇生成

我们遵循三个原则来生成我们的行动词汇。第一个是普遍性。我们收集日常生活场景中的一般行为，而不是特定环境中的特定活动(例如，在篮球场上打篮球)。第二个是原子性。我们的action类有清晰的视觉特征，并且通常独立于交互对象(例如，没有指定持有什么对象的hold)。这使得我们的列表既短又完整。最后一个是穷尽性。我们使用先前数据集的知识初始化列表，并对列表进行了几轮迭代，直到它覆盖了AVA数据集中99%的操作。我们最终在词汇表中拥有14个姿势类、49个人对象交互类和17个人-人交互类。

3.2 电影和片段选择

AVA数据集的原始视频内容来自YouTube。我们首先收集了许多不同国籍的顶级演员名单。对于每个名字，我们都会在YouTube上发布一个搜索查询，最多可以检索2000条结果。我们只包括有电影或电视主题标注的视频，时长超过30分钟，上传1年以上，浏览量不少于1000次。我们进一步排除了black;白色，低分辨率，动画，卡通，游戏视频，以及那些包含成熟内容。

为了在约束内创建代表性数据集，我们的选择标准避免了通过操作关键字过滤、使用自动操作分类器或强制使用统一的标签分布。我们的目标是通过从大型电影行业取样，创建一个国际电影集合。然而，电影中对动作的描述是有偏见的，例如通过性别，并没有反映人类活动的真实分布。

我们会跳过电影的开头，以避免对片名或预告片进行标注。我们选择15分钟的持续时间，这样我们就能够在一个固定的注释预算下包含更多的电影，从而增加我们数据集的多样性。然后，每个15分钟的剪辑被分割成897个重叠的3s电影片段，跨度为1秒。

3.3 人的bounding box标注

我们用一个边界框来定位一个人和他或她的行为。当多个主题出现在一个关键帧中时，每个主题将分别显示给标注者以进行操作标注，因此它们的操作标签可能不同。

由于bounding box标注需要大量人工操作，我们选择了一种混合方法。首先，我们使用Faster-RCNN person检测器生成一组初始的bounding box。我们设置操作点，确保高精度。然后，标注者会标注检测器错过的其余边界框。这种混合方法确保了对基准测试至关重要的边界框召回，同时最大限度地减少手工注释的成本。这个手动标注仅检索我们的个人检测器遗漏的5%的边界框，以验证我们的设计选择。在动作标注的下一阶段，标注者将标记并删除任何不正确的边界框。

3.4 人的链接标注

我们在短时间内将边界框连接起来，以获得真实的人物轨迹。我们利用嵌入的人计算相邻关键帧中边界框之间的两两相似度，并使用Hungarian算法求解最佳匹配。虽然自动匹配通常是强的，但我们通过核实每个匹配的人类标注员进一步删除了误报。这个过程产生81,000个从几秒到几分钟不等的小轨。

3.5 行为标注

动作标签是由使用图3所示界面的众包标注器生成的。左侧面板显示的是目标段的中间帧(顶部)和作为循环嵌入视频的段(底部)。覆盖在中间框架上的 bounding box指定了需要为其动作标记的人。右边是最多可输入7个动作标签的文本框，包括1个姿势动作(必需的)，3个人-物交互(可选的)和3个人-人交互(可选的)。如果列出的操作都不是描述性的，那么标记器可以标记一个称为“其他操作”的复选框。此外，它们还可以标记包含被阻止的或不适当的内容或不正确的bounding boxes的片段。

在实践中，我们观察到，当标记人员被指示从80个类的大量词汇中找到所有正确的词汇时，他们不可避免地会错过正确的操作。受[36]的启发，我们将动作标记管道pipeline分为两个阶段：动作提名和验证。我们首先要求多个标记者为每个问题提出动作候选，因此联合集合比单个建议具有更高的召回率。然后，标记人员在第二阶段验证这些提议的候选项。结果表明，使用这两阶段的方法有显著的召回改善，特别是在有较少的例子的动作。详细分析见补充资料。平均而言，在提名阶段标记一个给定视频片段需要22秒，而在验证阶段注释一个视频片段需要19.7秒。

[36]G. Sigurdsson, O. Russakovsky, A. Farhadi, I. Laptev, and A. Gupta. Much ado about time: Exhaustive annotation of temporal data. In Conference on Human Computation and Crowdsourcing, 2016. 4

每个视频片段由三个独立的标注者进行标注，如果一个动作标签被至少两个标注者验证，则该动作标签被视为ground truth。标注器以随机顺序显示片段。

3.6 训练、验证和测试集

我们的训练/验证/测试集在视频级别分割，这样一个视频的所有片段只出现在一个分割中。430个视频被分成235个训练视频，64个验证视频和131个测试视频，大约55:15:30分割，结果是211k训练，57k验证和118k测试片段。
在这里插入图片描述
图4。我们将展示AVA中原子行为如何随时间变化的例子。文本显示了红色框中人员的成对原子操作。时间信息是识别许多行动的关键，在一个行动类别中，外观会有很大的不同，例如打开一扇门或瓶子。

4. AVA数据集的特征

我们首先通过可视化的例子建立对AVA数据集的多样性和难度的直觉。然后，我们定量地描述了我们数据集的标注。最后，我们探讨动作和时间结构。

4.1 多样性和困难

图4显示了原子动作在连续段上的变化。除了bounding box大小和电影技巧的变化之外，许多类别还需要区分细微差别，如“碰杯”和“喝酒”，或利用时间背景，如“打开”和“关闭”。

图4还显示了操作 “打开” 的两个示例。即使在一个动作类中，其外观也会随着不同的上下文而变化:被打开的对象甚至可能发生变化。广泛的类内多样性将允许我们学习识别一个动作的关键时空部分的特征，例如破坏封条式的 “打开”。
在这里插入图片描述
图5 AVA train/val数据集中按降序排序的每个动作类的大小，用颜色表示动作类型。

图6 AVA数据集中标注bounding boxes的大小和纵横比变化。请注意，我们的bounding boxes由很大的尺寸变化组成，其中许多很小，很难检测到。大的变化也适用于边框的宽高比，模式为2:1比例(例如，坐姿)。

4.2 标注的统计数据

图5显示了AVA中操作标注的分布情况。分布大致符合Zipf定律。图6展示了bounding box大小分布。很大一部分人占据了整个框架的高度。然而，仍然有许多小尺寸的boxes。变化可以解释两个变焦水平以及姿态。例如，带有enter标签的框显示典型的行人高宽比为1:2，平均宽度为图像宽度的30%，平均高度为72%。另一方面，标为lie/sleep的方框接近正方形，平均宽度为58%，高度为67%。box的宽度分布很广，展示了人们执行标签动作时所采取的各种姿势。

大多数人员bounding boxes都有多个标签。所有的bounding boxes都有一个姿态标签，28%的bounding boxes至少有一个人-对象交互标签，67%的bounding boxes至少有一个人-对象交互标签。

4.3 时间的结构

它的一个重要特征是丰富的时间结构，并从一个片段进化到另一个片段。因为我们已经把人们联系在一起，所以我们可以通过观察同一个人执行的一成对动作来发现共同的连续动作。我们采用归一化逐点互信息(NPMI)对词对进行排序，这是语言学上常用来表示两个词之间的共现.
公式:
在这里插入图片描述
数值直观地落在(-1,1]范围内，h1表示从不共存的成对单词，0表示独立的成对单词，1表示总是共存的成对单词。

NPMI(Normalized Pointwise Mutual Information):归一化逐点互信息（Normalized Pointwise Mutual Information）（NPMI）

表1显示了同一个人连续一秒内NPMI最高的成对动作。在删除身份转换之后，出现了一些有趣的常识性时间模式。通常情况下，会有“看手机”→“接电话”，“摔倒”→“躺”的过渡，或“听”→“交谈”。我们也分析了人际行为对。表2显示了由不同的人在同一时间执行的最高级动作组合。一些有意义的配对出现了，如“乘”↔“开车”，“放音乐↔“听”，或“取”↔“给/服务”。尽管使用了相对粗糙的时间采样，但原子操作之间的转换为构建具有较长时间结构的更复杂的操作和活动模型提供了优秀的数据。尽管使用了相对粗糙的时间采样，但原子动作之间的转换为构建具有较长时间结构的更复杂的操作和活动模型提供了优秀的数据。

在这里插入图片描述
表1 我们展示了可能发生在同一个人之前/之后的最高成对连续动作。我们按NPMI排序。

表2 我们展示了不同人同时进行的最高配对动作。我们按NPMI排序。

5. 行动定位模型

在流行的动作识别数据集(如UCF101或JHMDB)上的性能数字在最近几年有了相当大的增长，但我们相信，这可能会人为地呈现出一幅关于当前技术水平的乐观图景。当视频剪辑中只有一个人在同样具有特征的背景场景中表演一些视觉特征，比如游泳，就很容易准确地进行分类。当演员多的时候，或者图像尺寸小的时候，或者表演的动作只有细微的不同，当背景场景不足以告诉我们发生了什么时，困难就来了。AVA有很多这些方面，我们会发现在AVA的性能是非常差的结果。事实上，Charades数据集的糟糕性能预示了这一发现。

为了证明我们的观点，我们开发了一种最先进的动作定位方法，其灵感来自于最近在多帧时间信息上动作的时空动作定位方法。在这里，我们依靠基于I3D[6]的更大时间上下文的影响来进行动作检测。图7是我们方法的概述。

在这里插入图片描述
图7 说明我们的方法的时空行动定位。区域建议检测和回归与Faster-RCNN在RGB关键帧。时空管采用 two-stream 3D卷积分类。

在Peng和Schmid之后，我们使用Faster RCNN算法对动作进行端到端定位和分类。然而，在他们的方法中，时间信息在第一层丢失，来自多个帧的输入通道随时间连接。我们建议使用carira和Zisserman的Inception 3D (I3D)架构来建模时间上下文。I3D架构是基于初始架构设计的，但用3D卷积取代了2D卷积。时间信息保存在整个网络中。I3D在广泛的视频分类基准上实现了最先进的性能。

为了使用具有 Faster RCNN的I3D，我们对模型做了以下修改:首先，我们将长度为T的输入帧输入到I3D模型中，并在work的混合4e层提取尺寸为T0 × W0 × H0 × C的3D特征图。Mixed 4e的输出特征图步长为16，相当于ResNet的conv4块。其次，对于动作提名的生成，我们在关键帧上使用2D ResNet-50模型作为区域提名网络的输入，避免了不同输入长度的I3D对生成的动作提名质量的影响。最后，通过在所有时间步的相同空间位置应用2D ROI池化，我们将ROI池化扩展到3D。为了了解光流对动作检测的影响，我们使用平均池化方法在feature map级别融合RGB流和光流流。