人体动作识别、预测常用骨架数据集小结

NTU RGB D 60

数据集简介

包含了由微软Kinect v2从三个不同的角度收集的56880个视频
片段,共有40名实验人员执行了60个动作类别。视频的每一帧由25个关节点
信息组成,动作分为单人执行和双人执行,所以一帧中的骨架数量为为1或2,每个视频仅包含一个动作。

评估方式

有两组分类方式:
cross-subject:通过将40个受试者分为2组,使得40320个视频片段被用于
训练,剩余16560个视频片段被用于测试。
cross-view:按照视角分组,2,3号摄像机捕捉的37920 个视频用作训练,
1号摄像机捕捉的18960个视频用作测试。

SYSU 3D HOI

数据集简介

提出于CVPR 2015

全称为 SYSU 3D Human-Object Interaction Dataset

40个实验者执行12个不同的动作,在每一个动作中,每位实验者操作手机、椅子、包、钱包、拖把、扫帚六种物品中的一种。用Kinect摄像机捕获共480个视频片段。

在这个数据中,动作和使用的物品外观在某些动作之间高度相似

评估约定

有两个不同的设置

设置一(setting-1):按照样本数量分,对于每个动作类别,选择一半的样本用于训练,另一半用于测试

设置二(setting-2):按照实验者分,一半的实验者用于训练,另一半用于测试

训练接和测试集之间没有重叠

数据分析

数据集帧数分析:

  • 小于100帧的:26条
  • 100-200帧的:222条
  • 200-300帧的:156条
  • 300-400帧的:58条
  • 400-500帧的:10条
  • 500帧以上的:8条

共计480条

较为相似的视频:

  1. 喝水和倒水,相似度适中,喝水为手举到头,倒水两只手互动
  2. 打电话和玩手机,相似度较高,打电话举到头,玩手机两只手在胸前,但是早前均表现为从口袋掏出手机,且打电话还有打错拿到胸前修改再举到头顶的清空
  3. 背书包和将东西放入书包,相似度适中,背书包为背到背后,检查书包为一只手抓着,另一只手翻找
  4. 坐在椅子上和搬运椅子,相似度较低
  5. 拿出钱包和从钱包拿出校园卡,相似度较高,都从口袋拿出钱包,前者马上放回,后者继续查找校园卡,主要差异在于后者帧数多于前者
  6. 拖地和扫地,相似度极高,动作基本一致,只是物品不同,但骨架数据不显示物品。

CMU

来源卡内基梅隆大学,数据集地址http://mocap.cs.cmu.edu/

包含45个动作类,2235个视频序列,超过一百万帧。

所有的动作都由1个人完成,每个骨架包含31个节点

该数据的难度在于每个视频序列的长度变化很大

其他说明

这些数据集都为RGB-D视频数据集,里面包括了RGB视频、深度视频、骨架视频。值得注意的是,有的论文虽然都使用了相同的数据集,但利用方式可能不一样,有的论文同时使用了以上三种数据集叠加(如Teacher-Studen论文中,在文中被称为RGB-D),而有的论文只使用了骨架数据集(如LGN,即skeleton-based)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锌a

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值