谷歌AVA数据库的1705.08421论文_ava数据集论文-CSDN博客

目的是理解AVA数据库的做成过程。翻译了谷歌AVA数据库的1705.08421论文。

翻译初版，部分还需要斟酌，之后在改善。

内容参见如下。

概要

本论文提出了一个视频数据集，（时空局部化）原子视觉动作（Atomic Visual Actions (AVA)）。

这个AVA数据集密集的标注了80种原子视觉动作，在57.6k的基于带有空间和时间的动作的视频片段上，作为结果，有210k动作标签，包括对每个人多次动作的复数标签。

与目前已有的数据集的主要差异是，（1）原子视觉动作的定义，避免收集每个/所有的复杂动作的数据。（2）清晰的时空的标注，包括对每个人的复数标签。（3）使用多样，真实的视频素材。

这个不同于针对各种动作识别的已经存在的数据集。如 JHMDB ， UCF 数据集，它们提供了至多 24 种混合动作的标注，诸如在特定环境如球场下所抓取的灌篮。我们实现了能体现最高水平的方法，能定位动作。尽管这样，在我们数据集上的表现保持了低调，强调为了视频理解而开发新方法的需要。此 AVA 数据集是在此方向上第一步，以使能在真实场景上的表现与进步能够度量。

1. 介绍

此论文提出了一个新的标注视频数据集AVA，我们已经收集的视频可以支持动作识别的研究。Fig. 1展示了典型的帧。标注以人为中心。每个人用框定位，关联的标签相当于人在做的（可能，复数）动作。有的动作相当于这个人的姿势，他或她在站立，坐着，走路，游泳等。可能有额外动作相当于与物体互动，或人与人互动。提出的框架自然适应不同人做的不同的动作。

我们的数据源是电影，好莱坞或其他地方制作的特色影片，我们分析连续3秒长的视频片段，在每个片段，中间帧是作为描述点被标注，但标注者通过视频的大量暂存内容用来获得的感性的提示，包括运动提示。这个标注的好的衡量作为我们的叫法是“Atomic Visual Actions”，简称AVA，也作为数据集的名称。这数据集当前包括了80中不同的原子视觉动作。数据库包括了来自192部不同电影的57.6k视频片段，每片段是3秒长的视频段落，这是从每个电影中的15分钟视频块中提取出来的。使用每个电影的15分钟的视频块，确保在同一时间的连续的多样性。我们标注了总共210k动作，显示了复数动作标签会频繁出现。我们计划发布标注的数据集到计算机视觉协会（/社区）。

基础工作是通过细小的细节观察Kansas小镇的孩子，关于他们日常生活。他们提议一个他们成为“behavior episode 行为插曲”的单元，例子包括一组男孩移动箱子穿过一个加油站，一个女孩与她母亲交换话语，一个男孩从学校回家。他们记下了活动的自然类型，在Fig2插了画。在最好层次上这些动作能用简单肢体动作被描述出来，或物体的操作，但在粗的层次上，大部分自然描述是根据意向性（intentionality）和有意图（goal-directed）的行为。

现在我们准备在AVA里解释3个关键设计选择。

为什么短的时间范围？

粗粒度的活动/事件的理解，在目标和子目标的条件下是容易做的。但是本质上这是一个无限序列，正像所有句子的序列。另一个问题是目标可能不是明显可见的。如果我们看见某个人走路，他们做这个为运动或去小卖部？然而如果我们限制自己到好的刻度，然后这些动作实际上是非常自然的，有清晰可视的特征。我们最终希望理解在粗粒度上的活动的分析，通过概念结构的影响，如剧本，模式，经由好的AVA单元。但这是非常面向未来的工作。诸如Zachsetal的研究表明，粗粒度边界是一定范围边界的一个子序列，暗示一定范围单元应该在组合粗粒度单元上证明有用。我们选择标注在3秒长的视频片段中的关键帧，这是很足够的，对理解内容和预防清晰时间标注的显示；“THUMOS挑战”观察了动作边界是模糊和主观的，引导了显著的内在标注分歧和价值偏差。相比之下，这是可行的，为标注者决定（用-1.5s，+1.5s内容）一个特定帧是否包含了给定的动作。这个任务是比指定时间边界，从本质上要减少了模糊性。

为什么以人为中心？

有各种没有人参与的事件，如树木陷落，但我们的焦点是在人的动作上，当作单独的因素。在一个运动事件可能有多人，或仅2人拥抱，但每个人是一个他或她自己选择的因素，因此我们能每个独立处理。我们不能阻止协作或竞争行为，但每个因素是通过物体与人的姿势，互动被描述的。

为什么是电影？

实际上我们想要“在偏远地区”的行为，通过Barker和Wright的现代版来记录在数字表格。

我们没有那些东西。那下一个最好的选择就是电影。超过一百多年来，摄影师在媒介上已经生产了很多故事，如果我们考虑风格，地域的多样性，随着不断增长的电影工业，我们可以期望一个人类行为的显著范围，在这些电影中展示出来。在这个过程中我们期待一些趋势。故事必须是感兴趣的，有通过并列关联的电影语言的语法。那就是说，在一个射手，我们期望一个人类动作的展现时序，少量事实的代表，被好演员所演绎的。它不是我们完美的关注这个数据那样。仅仅是比和用户的不同搭配产生内容的工作好点，如动物计谋的视频， DIY 教育视频，诸如孩子生日聚会等的事件，等等。我们期望电影能包含大范围活动，最好作为不同类型故事来讲述。我们把它作为一个考虑点，即仅包括来自至少 30 分钟长的电影，抽样 15 分钟间隔的视频。

本论文是按照如下组织的。第2章我们重审视之前的动作识别数据集，并指出与我们AVA数据集的差异。第3章我们讨论标注过程。第4张面向一些来自数据集的感兴趣的统计。第5章解释基准方法和报告结果。第6章给出结论。

待续。。。