NTU RGB D 60
数据集简介
包含了由微软Kinect v2从三个不同的角度收集的56880个视频
片段,共有40名实验人员执行了60个动作类别。视频的每一帧由25个关节点
信息组成,动作分为单人执行和双人执行,所以一帧中的骨架数量为为1或2,每个视频仅包含一个动作。
评估方式
有两组分类方式:
cross-subject:通过将40个受试者分为2组,使得40320个视频片段被用于
训练,剩余16560个视频片段被用于测试。
cross-view:按照视角分组,2,3号摄像机捕捉的37920 个视频用作训练,
1号摄像机捕捉的18960个视频用作测试。
SYSU 3D HOI
数据集简介
提出于CVPR 2015
全称为 SYSU 3D Human-Object Interaction Dataset
40个实验者执行12个不同的动作,在每一个动作中,每位实验者操作手机、椅子、包、钱包、拖把、扫帚六种物品中的一种。用Kinect摄像机捕获共480个视频片段。
在这个数据中,动作和使用的物品外观在某些动作之间高度相似
评估约定
有两个不同的设置
设置一(setting-1):按照样本数量分,对于每个动作类别,选择一半的样本用于训练,另一半用于测试
设置二(setting-2):按照实验者分,一半的实验者用于训练,另一半用于测试
训练接和测试集之间没有重叠
数据分析
数据集帧数分析:
- 小于100帧的:26条
- 100-200帧的:222条
- 200-300帧的:156条
- 300-400帧的:58条
- 400-500帧的:10条
- 500帧以上的:8条
共计480条
较为相似的视频:
- 喝水和倒水,相似度适中,喝水为手举到头,倒水两只手互动
- 打电话和玩手机,相似度较高,打电话举到头,玩手机两只手在胸前,但是早前均表现为从口袋掏出手机,且打电话还有打错拿到胸前修改再举到头顶的清空
- 背书包和将东西放入书包,相似度适中,背书包为背到背后,检查书包为一只手抓着,另一只手翻找
- 坐在椅子上和搬运椅子,相似度较低
- 拿出钱包和从钱包拿出校园卡,相似度较高,都从口袋拿出钱包,前者马上放回,后者继续查找校园卡,主要差异在于后者帧数多于前者
- 拖地和扫地,相似度极高,动作基本一致,只是物品不同,但骨架数据不显示物品。
CMU
来源卡内基梅隆大学,数据集地址http://mocap.cs.cmu.edu/
包含45个动作类,2235个视频序列,超过一百万帧。
所有的动作都由1个人完成,每个骨架包含31个节点
该数据的难度在于每个视频序列的长度变化很大
其他说明
这些数据集都为RGB-D视频数据集,里面包括了RGB视频、深度视频、骨架视频。值得注意的是,有的论文虽然都使用了相同的数据集,但利用方式可能不一样,有的论文同时使用了以上三种数据集叠加(如Teacher-Studen论文中,在文中被称为RGB-D),而有的论文只使用了骨架数据集(如LGN,即skeleton-based)