BigHand2.2M Benchmark: Hand Pose Dataset and State of the Art Analysis

Abstract

  • 本文介绍了一种采用新型捕获方法采集的大型手部姿势数据集。
  • 现有的数据集要么是综合生成的,要么是使用深度传感器捕获的:合成数据集与真实深度图像有一定程度的外观差异,而真实数据集的数量和覆盖范围都受到限制,主要是由于注释的困难。
  • 与现有基准相比,新数据集显示出更宽、更密集的手部姿势范围。我们还展示了CNN对新数据集的训练,在以自我为中心的手部姿势估计方面的显著改进。 

Introduction

  • 现有的基准点在标注图像的数量、标注精度、清晰度覆盖范围、手形和视点的变化等方面受到限制。 
  • 人工标注一直是创建大规模基准的瓶颈,这种方法不仅费时费力,而且还可能导致位置标注不准确。 
  • 设计了半自动捕捉方法,从手动标注的二维关节位置推断出三维关节位置。
  • 额外的传感器可以显著地帮助自动捕获,但必须注意不要限制运动范围,并尽量减少裸手的深度外观差异,例如使用数据手套时。 
  • 最近,在handnet数据集中,更少的侵入式磁传感器被用于固定尖端注释。 
  • 我们详细介绍了捕捉设置和方法,使有效的手姿势注释具有高精度。 这使我们能够捕捉到在没有外力的情况下可以采用的手运动范围。 
  • 我们的数据集包含220万个深度图,其中精确标注了关节位置。通过将六个磁传感器固定在手上、每个指甲上和手掌背面,捕捉数据,每个传感器提供精确的6d测量值。 

Existing benchmarks

  • 利用捕获的数据建立大规模基准的瓶颈在于缺乏快速、准确的标注方法。
  • 替代的注释方法仍然是劳动密集型和耗时型的,跟踪手模型并手动重新定义结果,如果需要,它们将重复这两个步骤。 
  • ICVL数据集是第一个基准,它使用3D骨骼跟踪[9]进行注释,然后进行手动修复。然而它的规模很小,文献也指出了注释准确性的局限性。
  • 纽约大学的数据集更大,视点范围更广。通过对三台摄像机拍摄的深度图像进行基于模型的手工跟踪,得到了其注释。 
  • 采用粒子群优化方法获得最终注释。这种方法通常会漂移到不正确的姿态,需要手动修正来重新初始化跟踪过程。 
  • MSRA15数据集目前是该领域最复杂的数据集。它以迭代的方式进行注释,其中优化方法[18]和手动重新调整交替进行,直到收敛。 
  • UCI-EGO数据集通过迭代搜索合成集合中最近的示例和随后的手动配置进行注释。 
  • Graz16数据集通过迭代注释多个关键帧中的可见关节,并使用优化方法自动推断完整序列,在优化方法中利用外观、时间和距离约束。 
  • ASTAR数据集使用了整形手数据手套,但戴上手套会影响捕捉到的手图像,并在某种程度上阻碍了自由手关节。 
  • 合成数据已被用于生成训练数据以及评估。 即使可以生成无限的合成数据,合成数据和实际数据之间仍然存在差距。
  • MSRC基准数据集是综合基准,其中数据均匀分布在3D视点空间中。 然而,数据在关节空间中是有限的,其中姿势是通过六个关节的随机采样产生的。

Full hand pose annotation

  • 我们的手模型有21个关节,可以以31自由度(DOF)移动,如图2所示。我们捕获了31个维度,其中6个维度用于全局姿态和25个关节角度。每个姿势由五个角度表示,包括扭曲角度、弯曲角度、MCP关节外展角度和倾角和PIP关节的弯曲角度。

BigHand2.2M benchmark

  • 为了覆盖不同的视角,我们改变了传感器的高度、拍摄对象的位置和手臂的方向。视点空间(第三人称视点的半球)分为16个区域(沿两个三维旋转轴中的每个轴均匀分布4个区域),要求受试者在每个区域内进行随机视点变化。此外,我们的数据集在以自我为中心的视角中收集随机变化。
  • BigHand2.2M数据集总共由三部分组成:(1)计划姿势:为了覆盖人类手可以自由使用的所有关节,该数据集包含153.4万帧,如上文所述。(2)随机姿势:拍摄375K帧,鼓励参与者充分探索姿势空间。(3)以自我为中心的姿势:290K帧的以自我为中心的姿势被拍摄下来,拍摄对象进行32个极端姿势,并随机移动。

 Discussion and conclusion

  • 手部姿态估计引起了人们的广泛关注,一些高质量的系统也得到了验证,但数据集的发展仍然滞后于算法的进步。 
  • 为了缩小这个差距,我们捕获了一个百万尺度的手部深度图像基准数据集。为了实现自动标注,我们提出了一种带有六个磁6D传感器和反向运动学的磁跟踪系统。为了建立一个全面而简洁的基准,我们系统地设计了一个手部运动协议来捕捉自然的手部姿势。 
  • Bighand2.2M数据集包括从自中心视角捕获的约290K帧,以便于在自中心手位估计领域的进步。使用新的基准评估当前最先进的方法,我们证明了跨基准评估的显著改进。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值