2D手势关键点:《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》

《Nonparametric Structure Regularization Machine for 2D Hand Pose Estimation》
原文链接:https://arxiv.org/pdf/2001.08869.pdf
源码链接:https://github.com/HowieMa/NSRMhand

0 Abstract

手势姿态估计(Hand pose estimation)相比身体姿态估计(body pose estimation)更具挑战性,因手关节更加灵活,动作敏捷和自我遮挡影响( highly articulated and dexterous, and suffers severely from self-occlusion);当前部分2d关键点学习方法,如CPM,仅仅对关键点位置进行估计,并没有对估计对象关键点相关结构进行约束。
本文提出一种新的非参数结构正则NSRMhand:novel Nonparametric Structure Regularization Machine)来做2D手势估计。将手部结构信息融入到姿态估计中,并且不需要额外的训练信息;相对CPM,在数据集OneHand 10k和CMU Panoptic Hand上分别提升精度1.17%,4.01%。

1 Introduction

本文创新

  1. 提出NSRM约束。将合成的二维手部掩膜( hand mask)融合到姿态估计中,并且是由关键点派生出来的,不需要额外的标注信息
  2. 提出一种新颖的手部肢体(hand limbs)概率表示方法和一种具有解剖学灵感的手部掩膜合成策略

2 Related work

2.1 Human pose estimation

  1. CPM
  2. PAF
  3. offset field【20】
  4. structural-aware loss【12】
  5. 。。。。

2.2 Hand pose estimation

近年来一些主流方法

  1. 多视角RGB方法
  2. 深度相机方法
  3. 单视角RGB方法
  4. 典型的CNN:CPM,SHG,Resnet
  5. 嵌入实例分割

3 The model

在这里插入图片描述
整体结构如上图,整体结构采用级联多任务结构,共计21个关键点,20个肢体;设计思路如下:

  1. 首先:骨干网络对手部图形进行特征提取,得到Feature Maps
  2. 其次:将Feature Maps送入结构模型进行肢体结构学习(Limb Structure Learning),得到Structure Representation
  3. 然后:将Feature Maps和Structure Representation进行融合
  4. 最后:进行姿态估计学习(Hand Pose Learning),输出hand pose(keypoint confidence maps (KCM))

3.1 Limb mask representation

  1. 什么是Limb?
    本文定义关键点 i i i j j j之间部分为1个肢体 L L L

  2. 如何表示Limb?
    文中提出2种Limb的表示方法

  3. Limb Deterministic Mask (LDM)
    LDM定义2个关键点之间(即每个Limb),直线段 p i p j ‾ \overline{p_ip_j} pipj固定宽度之间的像素响应为1,其它位置响应为0;即0/1-mask


    在这里插入图片描述

  4. Limb Probabilistic Mask (LPM)
    LDM定义上,在对mask表示时,如上式2,用0/1表示,有些粗糙,在实际应用中不是最佳。LPM采用高斯概率模型来生成mask( Gaussian-alike confidence value)


    在这里插入图片描述

  5. LDM与LPM效果图:


    在这里插入图片描述

  6. 延伸阅读
    这个表示方法与CMU(openpose)提出多人姿态估计方法PAF有相似之处;以及人脸关键点论文LAB也有相似之处。这2篇论文都是经典论文,本人都曾翻译过,有兴趣可以点开看看。

3.2 Limb composition

  1. 对单个的Limb表达上面已经有了,接下就是如何将它们组合成解刨学上合理的群体(groups)?
  2. 策略1:将20个limb组合在一起,成为一整个hand mask,关注整体,命名为:G1

    在这里插入图片描述
  3. 策略2:20个limb分为6组,5个手指和1个手掌,更关注局部细节,命名为:G6

    在这里插入图片描述
  4. 数学表达

    在这里插入图片描述

3.3 Loss function and training

本文将NSRM融入到CPM中,如下图,当然NSRM也可融入到其它模型中。训练中对Structure Stage进行CE Loss进行监督学习,标签是根据关键点生成的mask,而不是人工标注的mask;对Keypoint Stage进行MSE Loss监督学习,标签是根据关键点生成的热力图map
在这里插入图片描述

  1. CE Loss

    在这里插入图片描述
  2. MSE Loss

    在这里插入图片描述
  3. Loss

    在这里插入图片描述

4 Experiments

4.1 Datasets

  1. OneHand 10K
  2. Panoptic
    在这里插入图片描述

4.2 Experimental settings

具体网络结构参数,训练参数,源码中都有体现,读者训练移步研究

4.3 Quantitative results

  1. Mask对比

本文方法较CPM精度有所提高;但相对使用真实Mask训练,还是低一点点。但对于没有真实mask标签的数据集来说,该方案值得借鉴,毕竟标注mask很昂贵
在这里插入图片描述
2. LDM与LPM对比、groups对比
在这里插入图片描述

4.4 Qualitative results

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值