目录
前言
本文介绍的为动作识别视频分类数据集。数据集通常通过以下过程构建:1、结合以前数据集的标签,并根据使用情况添加新的类别,从而定义一个新的运动列表。2、从各种来源获取视频,如YouTube和电影,将视频标题/字幕与动作列表匹配。3、手动提供时间注释以指示动作的开始和结束位置。4、通过删除重复数据和过滤来清洗数据集。
一、常见数据集介绍
数据集 | 发布年份 | 数量 | 大小 | 视频长度 | 分类数 |
HMDB51 | 2011 | 7K | 2G | 5s | 51 |
UCF101 | 2012 | 13.3K | 6.5G | 6s | 101 |
Sports1M | 2014 | 1.1M | 5.5m | 487 | |
ActivityNet | 2015 | 28K | 5-10m | 200 | |
YouTube8M | 2016 | 8M | 229.6s | 3862 | |
Charades | 2016 | 9.8K | 30.1s | 157 | |
Sth-SthV1 | 2017 | 108.5K | 2-6s | 174 | |
Sth-SthV2 | 2017 | 220.8K | 2-6s | 174 | |
Kinetics400 | 2017 | 306K | 152.3G | 10s | 400 |
Kinetics600 | 2018 | 482K | 10s | 600 | |
Kinetics700 | 2019 | 650K | 10s | 700 | |
AVA | 2017 | 385K | 15m | 80 | |
AVA-kinetics | 2020 | 624K | 15m,10s | 80 | |
MIT | 2018 | 1M | 3s | 339 | |
HACS Clips | 2019 | 1.55M | 2s | 200 | |
HVU | 2020 | 572K | 500G+ | 10s | 739 |
AViD | 2020 | 450K | 3-15s | 887 |
HMDB数据集:HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240。
UCF101数据集:于 2012 年推出,是之前 UCF50 数据集的扩展。该数据集包含 13 320 视频,涵盖 101 个人类行为类别,分辨率320*240。
主要包括5大类动作:101个类别被分为5大类:人与物体交互,单纯的肢体动作,人与人交互,演奏乐器,体育运动。
每个类别(文件夹)分为25组,每组4-7个视频,一般为25帧或29帧。
视频命名格式为v_(类别)_g(组别)_c(第几个).avi
介绍连接:CRCV | Center for Research in Computer Vision at the University of Central Florida (ucf.edu)
Kinetics数据集:是一个大规模,高质量的YouTube视频网址数据集。这些动作以人类为中心,涵盖广泛的类别,包括演奏乐器等人与物体的交互,以及握手等人与人的交互。
Sports1M 于 2014 年推出,是首个大型视频动作数据集,由超过 100 万个 YouTube 视频组成。该数据集由 100 多万个 YouTube 视频组成,注释了 487 个体育类别。这些类别是细粒度的,因此类间差异较小。
ActivityNet最初于 2015 年推出,而自推出以来,ActivityNet 系列已有多个版本。最新的ActivityNet 200(V1.3)包含 200 个人类日常生活动作。它有 10 024 个训练视频、4 926 个验证视频和 5 044 个测试视频。平均每类有 137 个未经剪辑的视频,每个视频有 1.41 个活动实例。
YouTube8M 于 2016 年推出,是迄今为止最大规模的视频数据集。规模最大的视频数据集,包含 800 万个 YouTube视频(共 500K 小时),并标注了3,862 个动作类别。每个视频都有一个或多个标签。该数据集按 70:20:10 的比例分为训练、验证和测试三部分。该数据集的验证集还扩展还了人工验证的片段注释,以提供时间定位信息。
Charades于 2016 年推出,是一个用于真实生活中并发动作理解的数据集。现实生活中的并发动作理解。它包含 9 848 个 平均长度为 30 秒的视频。该数据集 包括 157 个多标签日常室内活动,由 267 个不同的人执行。它有一个正式的训练-验证划分, 有 7 985 个视频用于训练,剩余的 1,863 个用于验证。
20BN-Something-Something V1 于 2017 年推出,V2 于 2018 年推出。该系列是另一个流行的基准,由 174 个动作类组成,描述人类使用日常物品执行基本动作的情况。V1 中有 108 499 个视频,V2 中有 220 847 个视频。需要注意的是,数据集需要强大的时间建模,因为大多数活动都不能仅根据空间特征进行推断(例如,打开某物、用某物覆盖某物)。
AVA [70] 是 2017 年推出的首个大规模时空动作检测数据集。它包含 430 个15 分钟的视频片段,其中有 80 个原子动作标签(评估时只使用了60 个标签用于评估)。在每个关键帧上都提供了注释,从而产生了 214 622 个训练样本、57 472 个验证样本和 120 322 个测试样本。AVA 数据集
AVA 数据集最近扩展为 AVA-Kinetics,共有352 091 个训练样本、89 882 个验证样本和 182 457 个测试样本。
Moments in Time于 2018 年推出,是一个专为事件理解而设计的大规模数据集。它包含一百万个 3 秒钟的视频片段,并标注了 包含 339 个类别的字典。与其他为理解人类行为而设计的数据集不同,Moments in Time数据集涉及人、动物、物体和自然现象。该数据集被扩展为 "时间中的多时刻"(Multi-Moments in Time,M-MiT)。
HACS[267]于2019年被提出,作为一种新的大规模数据集,用于识别和定位从网络视频中收集的人类行为。它由两种手动注释组成。HACS Clips在504K视频上包含1.55M个2秒的剪辑注释,HACS Clips在50K视频上包含140K个完整的动作片段(从动作开始到结束)。这些视频使用ActivityNet (V1.3)中使用的200个相同的人类动作类进行注释。
HVU数据集于2020年发布,用于多标签多任务视频理解。这个数据集有572K个视频和3142个标签。官方分割的视频分别为481K、31K和65K,分别用于训练、验证和测试。该数据集有六个任务类别:场景、对象、动作、事件、属性和概念。平均而言,每个标签大约有2,112个样本。视频时长不同,最长不超过10秒。
AVID于2020年作为匿名动作识别的数据集提出。它包含410K的培训视频和40K的测试视频。每个视频剪辑持续时间在3-15秒之间,总共有887个动作类。在数据收集过程中,作者试图收集来自不同国家的数据,以处理数据偏差。他们还删除了人脸身份,以保护视频制作者的隐私。因此,AViD数据集可能不是识别人脸相关动作的合适选择。
参考文献
[2012.06567] A Comprehensive Study of Deep Video Action Recognition (arxiv.org)