视频动作识别Video Action Recognition数据集汇总

DataSetYearSampleAve. LenActions
HMDB5120117K~5s51
UCF101 201213.3K~6s101
Sports1M20141.1M~5.5m487
ActivityNet201528K[5, 10]m200
YouTube8M20168K229.6s3862
Charades20169.8K30.1s157
Kinetics4002017306K10s400
Kinetics6002018482K10s600
Kinetics7002019650K10s700
Sth-Sth V12017108.5K[2, 6]s174
Sth-Sth V22017220.8K[2, 6]s174
AVA2017385K15m80
AVA-Kinetics2020624K15m, 10s80
MIT20181M3s339
HACS Clips20191.55M2s200
HVU2020572K10s739
AViD2020450K[3, 15]s887

HMDB51于2011年推出,它主要从电影中收集,一小部分来自公共数据库,如Prelinger档案、YouTube和谷歌视频。数据集包含6849个剪辑,分为51个动作类别,每个类别至少包含101个剪辑。数据集有三个正式的分割。

UCF101于2012年引入,是先前UCF50数据集的扩展。它包含来自YouTube的13320段视频,涉及101类人类行为,该数据集有三个类似于HMDB51的官方分割,也以相同的方式进行评估。

Sports1M于2014年推出,是第一个大规模视频动作数据集,由超过100万个YouTube视频组成,其中包含487个体育课,类别是细粒度的,这导致类间差异很小。它有一个官方的10倍交叉验证分割用于评估。

ActivityNet最初于2015年推出,自其首次推出以来,ActivityNet家族已有多个版本。最新的ActivityNet 200(V1.3)包含200个人类日常生活活动。它有1024个培训、4926个验证和5044个测试视频,平均每个类有137个未修剪的视频,每个视频有1.41个活动实例。

YouTube8M于2016年推出,是迄今为止规模最大的视频数据集,包含800万个YouTube视频(总计50万小时视频),并注释了3862个动作类。YouTube视频注释系统用一个或多个标签对每个视频进行注释,该数据集按70:20:10的比例分为训练、验证和测试。该数据集的验证集还扩展了人类验证的片段注释,以提供速度定位信息。

Charades于2016年引入,作为现实生活中并发动作理解的数据集,它包含9848个视频,平均长度为30秒,该数据集包括267个不同的人进行的157项多标签日常室内活动。它有一个官方的火车验证部分,其中有7905个视频用于训练,其余1863个视频用于验证。

Kinetics系列现在是最广泛采用的基准。Kinetics400于2017年推出,它由大约240k的训练和20k的验证视频组成,从400个人类动作类别缩减到10秒,Kinetics系列继续扩大,2018年发布了480K视频的Kinetics-600,2019年发布了650K视频的Kinetics700。

20BN Something Something V1于2017年推出,V2于2018年推出。该系列是另一个受欢迎的基准,由174个动作类组成,描述了人类使用日常对象执行基本动作。V1中有108499个视频,V2中有220847个视频。请注意,该数据集需要强大的时间建模,因为大多数活动不能仅基于空间特征来推断(例如打开某物,用某物覆盖某物)。

AVA于2017年引入,作为第一个大规模时空动作检测数据集。它包含430个15分钟的视频剪辑和80个原子动作标签(只有60个标签用于评估),每个关键帧都提供了注释,导致214622个训练、57472个验证和120322个测试样本。AVA数据集最近扩展到AVA Kinetics,包含352091个训练、89882个验证和182457个测试样本。

MIT于2018年推出,是一个为事件理解而设计的大型数据集。它包含100万个3秒的视频片段,并附有339个类别的字典。与其他为人类行为理解而设计的数据集不同,时间瞬间数据集涉及人、动物、物体和自然现象。2019年,通过将视频数量增加到102万,删除模糊类,并增加每个视频的标签数量,将数据集扩展到多时间瞬间(M-MiT)。

HACS于2019年引入,作为一个新的大规模数据集,用于识别和定位从网络视频中收集的人类行为,它由两种手动注释组成。HACS剪辑在504K个视频上包含1.55M个2秒剪辑注释,HACS片段在50K个视频中包含140K个完整的动作片段(从动作开始到结束)。这些视频使用ActivityNet(V1.3)中使用的200个人类动作类进行注释。

HVU数据集于2020年发布,用于多标签多任务视频理解。这个数据集有572K个视频和3142个标签。官方分为481K、31K和65K视频,分别用于训练、验证和测试。该数据集有六个任务类别:场景、对象、动作、事件、属性和概念。平均而言,每个标签大约有2112个样本。视频的持续时间各不相同,最长为10秒。

AViD于2020年引入,作为匿名动作识别的数据集。它包含410K个培训视频和40K个测试视频。每个视频剪辑的持续时间在3-15秒之间,总共有887节动作课。在数据收集过程中,试图从各个国家收集数据,以应对数据偏差,还删除了人脸身份,以保护视频制作者的隐私。因此,AViD数据集可能不是识别人脸相关动作任务的好选择。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值