A Collaborative Filtering Approach to Real-Time Hand Pose Estimation

Abstract

  • 在本文中,我们首先对协同过滤和姿态估计问题进行了类比。具体来说,我们将手部姿势估计问题重新定义为推荐系统中项目评级未知的新用户的冷启动问题。
  • 受快速和准确的协同过滤矩阵分解技术的启发,我们开发了一种实时算法,用于根据商用深度相机的RGB-D数据估计手部姿势。 
  • 首先,我们使用已知姿势参数值的手部姿势库中的rgb-d域中的局部形状描述符有效地识别最近的邻居。 然后,我们使用这个信息,使用联合矩阵分解和完成(JMFC)方法来评估未知的姿态参数。 

Introduction

  • 强健的手骨架跟踪面临的多种挑战是:(1)手是高度关节化的物体;(2)手有许多自由度(DOF),其自身相似的部分经常相互遮挡;(3)所有的因素都是灵活的;(4)存在内部和内部运动约束。 
  • 手部跟踪的成功自然取决于我们对手部的知识和RGB-D数据流的潜在特征的综合。在本文中,我们提出了一种新方法,通过利用推荐系统的协同过滤方法来实现这种综合。
  • 这两个系统都有一些关于其组成对象、推荐系统中的用户和跟踪系统中的个人姿势的内在和外在信息。 跟踪系统中手的内在知识与推荐系统中已知的用户评级相对应。 同样,外部rgb-d点云信息对应于用户可用的元数据。 具体来说,手势估计问题类似于推荐系统中的冷启动问题。 
  • 推荐系统中的冷启动问题是向具有未知偏好的新用户推荐个性化项目。与跟踪系统类似,手姿态估计问题是通过一个RGB-D传感器对一个新的点云在每一时刻出现的运动手模型的未知姿态参数进行评估。
  • 采用类似的方法,我们可以使用具有已知参数值的大型手部姿势数据库中的本地形状描述符,有效地查找到达点云的最近邻居。然后,通过协同回归所有邻域姿态的已知参数,估计出该点云的未知姿态参数。
  • 本文的贡献:
  1. 我们的主要贡献是联合矩阵分解和完成(JMFC)算法,以每帧为基础从最近邻估计未知的姿态参数。 
  2. 使用模拟真实3D手势的合成手模型构建手姿势库。 
  3. 通过使用姿势聚类、快速特征点检测器和简短描述符的组合,从姿势库中高效地检索最近邻。 
  4. 总体而言,一个实用的解决方案,实时手姿态估计问题缺乏训练参数,并可在标准计算机上实现。 

Related Work

  • 手位估计的方法可以分为基于模型(生成)的方法和基于外观(识别)的方法。 显式手模型指导基于模型的方法恢复手部姿势,而基于外观的方法在图像特征和手部姿势配置库之间建立映射。 
  • 目前基于模型的方法使用粒子群优化(PSO)[21]或高斯-塞德尔解算器[20]来解决手工配置问题。 虽然直接实现,但这些方法依赖于先验运动来初始化解算器,计算复杂度较高。因此,对于非连续数据,这些方法的姿态估计很差,它们通常依赖于GPU进行实时处理。 
  • 虽然我们使用最近邻点来估计姿态参数,但我们的JMFC算法在没有任何训练的情况下避免了由于看不见的姿态造成的错误。 
  • 这些方法首先创建一组手部姿势,然后通过优化评分函数选择最适合观察深度数据的手部姿势。这种优化的沉重计算负担意味着系统要么达到低帧速率(12 fps in[35]),要么需要使用GPU加速(如[26])。与这些方法显式地最大化所有单个姿势候选者的评分函数不同,我们的方法通过集体评估可能的手姿势的总体,隐式地优化评分函数。我们在JMFC模型中使用矩阵分解的快速算法来进行优化。 

Database creation

  • 姿势库使用我们用于从深度图确定手部姿势的标签进行注释。
  • 通过评估到达深度数据和姿势示例的模拟深度数据之间的形状描述符距离,可以在运行时检索最近的邻居。 
  • 我们使用一个合成的三维手模型统计生成手的姿势。 我们的合成手模型的大小代表男性手大小的中位数四分之一。 我们的三维手模型由1179个顶点和2126个三角形面组成。我们采用21自由度(DOF)、h(θ、φ)的运动手模型作为手部姿势估计的标准问题。θ为18个关节角度参数集,φ为手部3个全局平移参数(X、Y、Z)集。 
  • 为了综合生成与遮挡下深度相机可见的点云相一致的点云,我们使用隐藏点移除[14]策略处理这些网格模型。 
  • 因此,数据库中的每个姿势实例都是带有标签(θ,s,v)的网格模型,其中s是骨架顶点的坐标,v是深度摄影机视点中可见顶点的坐标。 
  • 基于密度的方法可以自动检测高维数据中任意形状的簇。 为了识别姿势簇,我们在下面描述的形状描述符距离上使用了两种基于密度的簇方法(OPTICS[3]和DBSCAN[10])的组合。 OPTICS算法不显式地生成簇,而是根据所有手的相似性提供一个排序。 然后,我们使用dbscan提取集群,并将距其他集群成员最小平均距离的姿势设置为姿势示例。 
  • 我们将局部形状描述符C与每个姿势示例关联。在运行时进行最近邻检索,首先确定到达点云的形状描述符,计算其所有姿势示例的形状描述符距离,然后选择小于阈值的最近邻。
  • 我们使用深度图上的快速特征点探测器来识别角点[25]。对于每个检测到的快速特征点,计算一个简短的描述符[6],它对周围区域的信息进行编码。通过迭代确定两个深度图的快速特征点之间的对应关系:(1)在两个深度图的对应简短描述符之间找到汉明距离最小的一对(按位异或运算),以及(2)删除该匹配对以评估后续对应关系。形状描述符距离是所有匹配的快速特征点对的简短描述符之间的平均汉明距离。此距离随手的方向而变化,因此从库中输出方向类似的手姿势作为最近的邻居。这种特性在我们的方法中是可取的,因为平面内的旋转角度可以在JMFC算法中使用这些最近的邻居进行可靠估计。

Joint Matrix Factorization and Completion

  • 首先对输入深度进行处理以删除背景,并且只包含手部的深度像素。全局参数φ直接根据处理后的深度图估算。 接下来,评估此深度映射的局部形状描述符,并使用形状描述符距离从标记的数据库中检索最近的邻居。这些邻域作为JMFC模型的种子姿态,估计关节角度参数θ,然后进行一些最终的后处理以输出跟踪的手骨架。 
  • 我们通过考虑最长连续轮廓中的像素来确定深度图中手对应的点。通过使用中值过滤器降低检测到的斑点中的外来噪声。 然后将平移参数φ设置为等于深度图中其余点的质心。
  • 参数k的选择对于JMFC模型至关重要。较小的k会影响θ估计的稳健性,而过大的k会增加计算复杂性,使模型不适用于实时应用。 因此,我们确定形状描述符距离阈值以下的k个最近邻居,并将k设置为:
  • 我们使用联合矩阵分解和完成(JMFC)方法来估计给定深度图的未知关节角度。

Conclusion

  • 本文提出了一种基于联合矩阵分解和完备模型的手部姿态估计问题的新方法。我们提供了强有力的证据证明我们的方法在实时环境中的手跟踪的适用性。
  • 一个有前途的方向是在JMFC目标函数中使用核范数正则化代替弗罗贝尼乌斯范数得到低秩因子。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值