【三维人体姿态估计】数据集合集

最新推荐文章于 2025-03-06 00:09:50 发布

计算机科研之友（Friend）

最新推荐文章于 2025-03-06 00:09:50 发布

阅读量1.6k

点赞数 21

文章标签：网络安全计算机视觉数据库搜索引擎计算机网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kyzy_1919/article/details/140991764

版权

本文将为您介绍10个经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。

1

DensePose-COCO

发布方：

Facebook AI Research·伦敦大学学院·伦敦帝国理工学院
发布时间：

2018
简介：

密集人体姿态估计旨在将 RGB 图像的所有人体像素映射到人体的 3D 表面。

我们介绍了 DensePose-COCO，这是一个在 50K COCO 图像上手动注释图像到表面对应关系的大规模地面实况数据集。我们提出 DensePose-RCNN，Mask-RCNN 的一种变体，以每秒多帧的速度密集回归每个人体区域内的特定部位 UV 坐标。
下载地址：

http://densepose.org/
论文地址：

https://arxiv.org/pdf/1802.00434v1.pdf

2

DexYCB

发布方：

华盛顿大学·英伟达
发布时间：

2021
简介：

我们介绍了 DexYCB，这是一个新的数据集，用于捕获物体的手抓握情况。我们首先通过跨数据集评估将 DexYCB 与相关的进行比较。然后，我们针对三个相关任务提出了最先进方法的全面基准：2D 对象和关键点检测、6D 对象姿态估计和 3D 手姿态估计。最后，我们评估了一项新的机器人相关任务：在人机对象切换中生成安全的机器人抓取。
下载地址：

https://dex-ycb.github.io
论文地址：

https://arxiv.org/pdf/2104.04631v1.pdf

3

GeneBody

发布方：

上海人工智能实验室
发布时间：

2022-07-14
简介：

GeneBody是一个全新的用于检验人体新视角生成的数据集。GeneBody提供48个视角的总共100个不同体态、衣物、外饰的表演者的370段动作序列，共295万帧图片，涵盖了从日常场景到专业场景中不同的人体动作和外观。另外数据集还提供逐帧的SMPLx估计和前景分割。
下载地址：

https://generalizable-neural-performer.github.io/genebody.html

4

MSRC-12 (MSRC-12 Kinect Gesture Dataset)

发布方：

微软·亚历山大大学
发布时间：

2012-01-01
简介：

Microsoft Research Cambridge-12 Kinect 手势数据集由人体运动序列组成，表示为身体部位位置，以及系统识别的相关手势。该数据集包括 594 个序列和 719,359 帧 - 大约 6 小时 40 分钟 - 从 30 个人执行 12 个手势收集。总共有 6,244 个手势实例。运动文件包含使用 Kinect 姿势估计管道估计的 20 个关节的轨迹。身体姿势以 30Hz 的采样率捕获，关节位置的精度约为 2 厘米。
下载地址：

http://www.eng.alexu.edu.eg/~mehussein/msrc12_annot4rec/index.html
论文地址：

http://www.nowozin.net/sebastian/papers/fothergill2012gestures.pdf

5

AIST++

发布方：

加州大学·Google Research·南加州大学
发布时间：

2021
简介：

AIST++ 是一个 3D 舞蹈数据集，其中包含从真实舞者与音乐配对重建的 3D 动作。 AIST++ 舞蹈动作数据集是从 AIST 舞蹈视频数据库构建的。对于多视图视频，设计了一个精细的管道来估计相机参数、3D 人体关键点和 3D 人体舞蹈动作序列：它为 1010 万张图像提供 3D 人体关键点注释和相机参数，涵盖 9 个视图中的 30 个不同主题。这些属性使其成为具有 3D 人体关键点注释的最大和最丰富的现有数据集。它还包含 1,408 个 3D 人类舞蹈动作序列，表示为关节旋转以及根轨迹。舞蹈动作平均分布在 10 种舞蹈流派中，有数百种编舞。运动持续时间从 7.4 秒不等。至 48.0 秒。所有的舞蹈动作都有相应的音乐。
下载地址：

https://google.github.io/aistplusplus_dataset/
论文地址：

https://arxiv.org/pdf/2101.08779.pdf

6

MuCo-3DHP

发布方：

斯坦福大学·Saarland Informatics Campus·马克斯普朗克信息学研究所
发布时间：

2018
简介：

我们提出了一种新的单镜头方法，用于在单目 RGB 相机的一般场景中进行多人 3D 姿势估计。我们的方法使用新颖的遮挡鲁棒姿势图（ORPM），即使在场景中其他人和物体的强烈部分遮挡下也能进行全身姿势推断。 ORPM 输出固定数量的地图，这些地图对场景中所有人的 3D 关节位置进行编码。身体部位关联允许我们为任意数量的人推断 3D 姿势，而无需明确的边界框预测。为了训练我们的方法，我们引入了 MuCo-3DHP，这是第一个显示复杂多人交互和遮挡的真实图像的大规模训练数据集。我们通过合成个人图像（具有来自多视图性能捕获的基本事实）来合成大量多人图像。我们在新的具有挑战性的 3D 注释多人测试集 MuPoTs-3D 上评估我们的方法，在其中我们实现了最先进的性能。为了进一步促进多人 3D 姿势估计的研究，我们将公开我们的新数据集和相关代码以用于研究目的。
下载地址：

https://vcai.mpi-inf.mpg.de/projects/SingleShotMultiPerson/
论文地址：

https://arxiv.org/pdf/1712.03453.pdf

7

HuMMan

发布方：

上海人工智能实验室·商汤科技研究所·南洋理工大学实验室
发布时间：

2022-01-01
简介：

HuMMan数据集是全球最大的多模态人体数据集，包含1000人，500个覆盖人体主要肌肉群的动作，8种不同的模态，超过40万段视频，6000万帧数据。数据采集基于RGB-D相机及一部移动端设备，支持动作识别、人体参数化模型预测、人体外表面重建等相关研究。 √多模态：HuMMan提供了一揽子数据和标注模态 √移动端设备：采集设备包括一部移动端设备 √动作集：一套完备、明确的500个动作 √多任务：支持各种人体感知和建模任务
下载地址：

https://openxdlab.org.cn/home
论文地址：

https://arxiv.org/pdf/2204.13686.pdf

8

HiEve(Human-in-Events)

发布方：

Adobe Research·特伦托大学·上海交通大学
发布时间：

2020-08-15
简介：

现代智慧城市的发展高度依赖于以人为本的分析技术的进步。智能多媒体理解是视觉分析的基本技术之一，它需要许多以人为中心和事件驱动的视觉理解任务，例如人体姿态估计、行人跟踪和动作识别。在这个巨大的挑战中，我们专注于在各种人群和复杂事件中非常具有挑战性和现实性的以人为中心的分析任务，包括地铁上下车、碰撞、战斗和地震逃生（参见图 1）。据我们所知，现有的人类分析方法很少能报告它们在如此复杂的事件下的表现。考虑到这一点，我们进一步提出了一个数据集（称为 Human-in-Events 或 HiEve），该数据集具有大规模和密集注释的标签，涵盖了以人为中心的分析中的广泛任务。

我们的 HiEve 数据集包括当前最大数量的姿势 (>1M)、最大数量的复杂事件动作标签 (>56k)，以及最大数量的长期轨迹之一（平均轨迹长度 >480）。在我们的数据集上建立了四项具有挑战性的任务，旨在将多媒体和计算机视觉社区的研究人员聚集在一起，从三个方面提高人体运动、姿势和动作分析方法的性能： • 通过以人为中心的综合分析任务来组织我们大规模数据集上的挑战，并促进以人为中心的理解中的多媒体和人工智能研究和应用。 • 鼓励和加速开发以人为本的分析和理解复杂事件领域的新技术。 • 培育“复杂事件中以人为中心的大规模视觉分析”的新思路和新方向。
下载地址：

http://humaninevents.org/
论文地址：
https://arxiv.org/pdf/2005.04490v5.pdf

9

DNA-Rendering

发布方：

上海人工智能实验室
发布时间：

2022-09-01
简介：

DNA-Rendering 数据集涵盖多人种，多年龄段，多民族，多朝代及多种特殊技能的人体数据特性，是目前对人体形态、动作、衣物等细节多视角、高分辨采集中规模最大的数据集，以多样性、高保真、动态性为优势。

√密集视角采集：60高清视角，8个Kinect深度图视角
√4K超高清动作捕捉
√表演场景丰富：日常动作，专业场景
√专业技能动作采集
√海量现代、古典及民族服饰
√大量人物交互场景
√多元数据及标注：图片、分割、点云、人体关键点及模型

10

fly

发布方：波士顿大学
发布时间：2016
简介：

研究人员积极研究蝙蝠、鸟类和飞蛾等飞行动物，希望更好地了解这些动物的行为和飞行特征。为实现这一目标，已在实验室条件和自然栖息地录制了飞行动物的多视图视频。随着时间的推移，对这些视频的分析已经从科学家的人工检查转变为基于计算机视觉算法的更加自动化和定量的方法。本论文描述了一项关于多视图视频数据中飞行动物 3D 姿态估计的大部分未探索问题的研究。这个问题在很少有飞行动物数据集存在的计算机视觉社区中很少受到关注
下载地址：

https://open.bu.edu/handle/2144/19720
论文地址：

https://open.bu.edu/ds2/stream/?#/documents/141475/page/1

11

Deep Fashion3D

发布方：

深圳大数据研究院·Chinese University of Hong Kong·浙江大学计算机辅助设计与图形国家重点实验室
发布时间：2020
简介：

我们介绍了Deep Fashion3D，这是从真实服装重建的3D服装模型的大规模存储库。它包含2000多个3D服装模型，跨越10个不同的布料类别。每个模型都具有地实点云，多视图真实图像，3D身体姿势和名为特征线的新颖注释。使用Deep Fashion3D，从单个图像推断服装几何形状成为可能。
下载地址：

https://kv2000.github.io/2020/03/25/deepFashion3DRevisited/
论文地址：

https://arxiv.org/pdf/2003.12753v2.pdf

12

HUMAN4D

发布方：

雅典国家技术大学·Artanim Foundation·荷兰数学和计算机科学研究学会·希腊研究和技术中心
发布时间：2020
简介：

HUMAN4D 是一个大型的多模式 4D 数据集，其中包含由基于标记的专业 MoCap、体积捕获和音频记录系统同时捕获的各种人类活动。通过捕捉 2 位女性和 2 美元的男性专业演员表演各种全身动作和表情，HUMAN4D 提供了在单人和多人日常、身体和社交活动（跳跃、跳舞等）中遇到的各种动作和姿势. )，以及多 RGBD (mRGBD)、体积和音频数据。描述来自：HUMAN4D：运动和沉浸式媒体的以人为中心的多模态数据集
下载地址：

https://github.com/tofis/human4d_dataset
论文地址：

https://arxiv.org/pdf/2110.07235v2.pdf

13

GTA-Human

发布方：

上海人工智能实验室
发布时间：

2022-09-01
简介：

通过协同大量计算节点同步运行游戏Grand Theft Auto V (GTA-V)，我们采集了GTA-Human，一个大规模数据集（2万段视频及140万帧SMPL参数标签），包括超过600个不同的人物、2万段不同的动作序列、6种主要的地点、角度真实的相机、人与环境的交互、光照以及天气大规模：140万 SMPL 标注多样性：人物、动作、地点、相机姿态、交互、光线和天气
下载地址：

https://openxdlab.org.cn/home
论文地址：

https://arxiv.org/pdf/2110.07588.pdf

温馨小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。