四个动作识别数据集的简介

最新推荐文章于 2024-07-20 11:28:11 发布

ssally0621

最新推荐文章于 2024-07-20 11:28:11 发布

阅读量5.3k

点赞数 2

分类专栏：计算机视觉文章标签：数据集动作识别视觉

计算机视觉专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1、UT-Interaction数据集
包含6类人与人交互的视频：挥手，指向，拥抱，推，踢和用拳猛击。总共有20个视频序列的长度约为1分钟。每个视频每个交互至少包含一次执行，为每个视频平均提供8次人类活动的执行。视频中会出现多个有超过15种不同类型服饰的参与者。视频采用720 * 480,30fps的分辨率拍摄，视频中人物的高度约为200像素。
将视频分成两组。一组在停车场拍摄，由10个视频序列组成。视频采用稍微不同的缩放比例，其背景大部分是静态的，而且相机抖动很小。第二组（即其他10个序列）在处于刮风天气的草坪上拍摄。背景略有变动（例如树移动），也包含更多的相机抖动。从序列1到4以及从11到13，场景中只出现两个互动人物。从序列5到8和从14到17，场景中都有相互作用的人和行人。在第9,10,18,19和20组中，几对相互作用的人同时执行这些活动。每组具有不同的背景，拍摄比例和照明情况。

2、CAVIAR Test Case Scenarios CAVIAR测试用例场景
拍摄多种情况下的情景，视频内容包括人们独自行走，与他人见面，购物，进出店铺，打架、昏厥和在公共场所留下一个包裹。
第一部分视频剪辑是在实验室入口大厅用广角相机镜头拍摄的。大多数剪辑从一个成员以身体和手势示意场景的开始。
第二组数据在购物中心和沿着走廊使用广角镜头拍摄。对于每个序列，从两个不同的角度进行记录，都有两个时间同步的视频，其中一个视角沿着走廊，另一个视角横跨走廊的正面。
分辨率是PAL制式的一半分辨率（384 x 288像素，每秒25帧）并使用MPEG2进行压缩。文件大小主要在6到12 MB之间，有几个高达21 MB。

3、BEHAVE Interactions Test Case Scenarios交互测试用例场景
数据集包含两种不同视角下人们进行各种互动的场景，包括十个基本情景。视频以每秒25帧的速度拍摄。分辨率是640x480。数据以AVI或一组JPEG图像的文件形式提供。
引用形式： S. J. Blunsden, R. B. Fisher, “The BEHAVE video dataset: ground truthed video for multi-person behavior classification” , Annals of the BMVA, Vol 2010(4), pp 1-12.

4、UCF101
UCF101是从YouTube收集的具有101个动作类别的真实动作视频的动作识别数据集。该数据集是UCF50数据集的扩展，其中包含50个操作类别。
从101个动作类别的13320个视频中，UCF101在动作方面提供了最大的多样性，并且相机运动，物体外观和姿态，物体比例，视点，背景混乱，照明条件等方面存在较大差异，它是最具有挑战性的数据集迄今。由于大多数可用的行动识别数据集不现实并由行动者进行演示，因此UCF101旨在鼓励通过学习和探索新的实际行动类别来进一步研究行动识别。
101个动作类别中的视频被分组为25个组，其中每个组可以包含4-7个动作视频。来自同一组的视频可以共享一些共同的特征，诸如相似的背景，类似的观点等等。
动作类别可以分为五种类型：1）人 - 物体互动2）身体动作3）人与人之间的互动4）演奏乐器5）运动。