今天,Google发布了一个新的人类动作识别数据集—AVA。
AVA由超过57,000个视频片段组成,标有96,000个标记动作和21万个动作标签。包括从YouTube视频中收集的公开视频片段:统一将 15 分钟视频分割成 300 个非重叠的 3 秒片段。然后使用80个动作类型(如步行,踢或拥抱)手动标记进行分类。
五月份,Google在arXiv上公布的一篇论文中,首先介绍了AVA的创建工作,并于7月份更新。该论文中的初步实验表明,Google的数据集对于现有的分类技术来说是非常困难的 - 下面显示了较旧的JHMDB数据集的性能,与新的AVA数据集的性能之间的对比。
尽管过去几年在图像分类和查找对象方面取得了惊人的突破,但识别人类动作仍然是一个巨大的挑战。这是因为行为本质上不如视频中的对象明确定义,使得难以构建精细标记的动作视频数据集。
而许多基准数据集,如UCF101,ActivityNet和DeepMind的动力学采用图像分类的标签方案,为数据集中的每个视频或视频剪辑分配一个标签,不存在包含可以执行不同动作的多个人的复杂场景的数据集。
为了进一步研究人类动作识别,Google发布了AVA,由“原子视觉动作”创建,这是一个新的数据集,为扩展视频序列中的每个人提供了多个动作标签。AVA由来自YouTube的公开可用视频的URL组成,用空间时间本地化的80个原子动作(例如“walk”,“kick(object)”,“hands hands”)进行注释,从而导致576000的视频片段,96000标记的人类执行动作,以及总共210000的动作标签。
与其它动作数据集相比,AVA具有以下主要特点:
以人为本的标注。每个动