人体动作识别、预测常用骨架数据集小结

最新推荐文章于 2025-05-05 08:32:50 发布

锌a

最新推荐文章于 2025-05-05 08:32:50 发布

阅读量3.8k

点赞数 1

分类专栏：计算机视觉：从0基础开始的奋斗历程文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43601378/article/details/122163131

版权

计算机视觉：从0基础开始的奋斗历程专栏收录该内容

35 篇文章

订阅专栏

目录

NTU RGB D 60

数据集简介

包含了由微软Kinect v2从三个不同的角度收集的56880个视频
片段，共有40名实验人员执行了60个动作类别。视频的每一帧由25个关节点
信息组成，动作分为单人执行和双人执行，所以一帧中的骨架数量为为1或2，每个视频仅包含一个动作。

评估方式

有两组分类方式：
cross-subject：通过将40个受试者分为2组，使得40320个视频片段被用于
训练，剩余16560个视频片段被用于测试。
cross-view：按照视角分组，2，3号摄像机捕捉的37920 个视频用作训练，
1号摄像机捕捉的18960个视频用作测试。

SYSU 3D HOI

数据集简介

提出于CVPR 2015

全称为 SYSU 3D Human-Object Interaction Dataset

40个实验者执行12个不同的动作，在每一个动作中，每位实验者操作手机、椅子、包、钱包、拖把、扫帚六种物品中的一种。用Kinect摄像机捕获共480个视频片段。

在这个数据中，动作和使用的物品外观在某些动作之间高度相似

评估约定

有两个不同的设置

设置一(setting-1)：按照样本数量分，对于每个动作类别，选择一半的样本用于训练，另一半用于测试

设置二(setting-2)：按照实验者分，一半的实验者用于训练，另一半用于测试

训练接和测试集之间没有重叠

数据分析

数据集帧数分析：

小于100帧的：26条
100-200帧的：222条
200-300帧的：156条
300-400帧的：58条
400-500帧的：10条
500帧以上的：8条

共计480条

较为相似的视频：

喝水和倒水，相似度适中，喝水为手举到头，倒水两只手互动
打电话和玩手机，相似度较高，打电话举到头，玩手机两只手在胸前，但是早前均表现为从口袋掏出手机，且打电话还有打错拿到胸前修改再举到头顶的清空
背书包和将东西放入书包，相似度适中，背书包为背到背后，检查书包为一只手抓着，另一只手翻找
坐在椅子上和搬运椅子，相似度较低
拿出钱包和从钱包拿出校园卡，相似度较高，都从口袋拿出钱包，前者马上放回，后者继续查找校园卡，主要差异在于后者帧数多于前者
拖地和扫地，相似度极高，动作基本一致，只是物品不同，但骨架数据不显示物品。

CMU

来源卡内基梅隆大学，数据集地址http://mocap.cs.cmu.edu/

包含45个动作类，2235个视频序列，超过一百万帧。

所有的动作都由1个人完成，每个骨架包含31个节点

该数据的难度在于每个视频序列的长度变化很大

其他说明

这些数据集都为RGB-D视频数据集，里面包括了RGB视频、深度视频、骨架视频。值得注意的是，有的论文虽然都使用了相同的数据集，但利用方式可能不一样，有的论文同时使用了以上三种数据集叠加（如Teacher-Studen论文中，在文中被称为RGB-D），而有的论文只使用了骨架数据集（如LGN，即skeleton-based）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

锌a 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。