手势姿态估计综述

手势姿态估计
在这里插入图片描述

人手分割的目标是将手从整个场景中分割出来。特征提取是指从观测数据中提取出用于姿态估计的视觉线索(比如手掌轮廓等)。手模型是为考虑手的几何结构、运动约束等而引入。标注数据指用于训练的真实或仿真的手势姿态集。
在这里插入图片描述

1.手势识别的目标是对一组离散手势进行分类。
2.人手跟踪的目标是确定手的空间位置,定位形式通常是点或矩形框。人手分割是利用二值掩码精确定位手的空间位置,可视为人手跟踪的增强版。
3.人手解析的目标是将手划分成不同的语义部分。
4.指尖检测属于部分手势姿态估计,目标是确定五个指尖的空间位置。

(1)方法:
手部姿态估计按照最终的生成方式来分的话可以分为两类:基于检测的方法和基于回归的方法。
1.基于检测的方法是通过生成热图来得到最终的预测关键点。
2.基于回归的方法则是直接回归关键点的位置坐标。
之前的方法基本上是采用回归的方法,采用全连接的方法直接回归关键点的坐标位置,优点是输出即为坐标点,训练和前向速度很快。缺点是缺乏空间泛化能力,丢失了这个图上的空间信息。但是从15年的《Flowing ConvNets for Human Pose Estimation oin Videos》这篇论文之后,姿态估计基本上是采用检测的方法。
在这里插入图片描述

解释:以上框架也包含了二维姿态回归。从输入上讲,输入的数据可以是depth、RGB、RGB-D。如果从输入数据上看,最近几年的工作集中于RGB,一部分是depth但是RGB-D的工作相对较少。在从单幅RGB回归3D姿态取得了不错的成果。
特征提取网络部分:主流的是使用ResNet-50网络,还有使用VGG-19和Hourglass网络(沙漏网络结构)。相对别的领域,手部姿态估计使用的特征提取网络相对单一。特征提取之后会生成Feature Map。
2D Detector部分:为了生成HeatMap,这里的HeatMap是某一位置为特定关节点的概率图。
后续经过3D回归网络回归出三维坐标。
Hourglass网络(沙漏网络结构):
在这里插入图片描述

我们来分析下c4b这个网络层,它是由c7和c4a合并来的,这里有两块操作:
(1)c7层通过上采样将分辨率扩大一倍,上采样相当于pool层的反操作,为了将feature map的分辨率扩大,比如c7的kernel size为 4x4 ,那么上采样后得到的kernel size 为 8x8 。
(2)c4a层与c4层的大小保持一致,可以看作是c4层的“副本”,它的kernel size 是c7的两倍,刚好与被上采样后的c7大小一致,可以直接将数值相加,那么就得到了c4b
这样将feature map层层叠加后,最后一个大的feature map - c1b 既保留了所有层的信息,又与输入原图大小,意味着可以通过1x1卷积生成代表关键点概率的heat map。

(2)数据集汇总:

在这里插入图片描述

  • 7
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值