InterHand2.6M

最新推荐文章于 2024-07-27 09:45:00 发布

jamorZhong

最新推荐文章于 2024-07-27 09:45:00 发布

阅读量3.3k

点赞数 3

分类专栏：姿势估计文章标签：计算机视觉

本文链接：https://blog.csdn.net/jamorZhong/article/details/108790735

版权

姿势估计专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘要

目前，关于手势的研究大多为单手情况，为了更好的理解人的行为，文章提出了一个双手交互的手势预测数据集InterHand2.6M和一个基线网络InterNet。

介绍

过去3D手势估计大多是单手情况，现实中大多为双手交互和手－物体交互。
构造第一个大范围真实的基于RGB的3D手势数据集，该数据集包含了单手序列和双手交互序列。
InterNet同时从单RGB图像中预测3D单手和双手手势。InterNet预测手是否存在、2.5D左右手手势和右手相对左手深度。2.5D手势包含2D手势和相对根节点（手腕）的深度。使用右手相对左手深度代替根节点绝对深度，将2.5D姿势提升到3D姿势。
交互手数据对准确的3D交互手势估计来说是重要的。

InterHand2.6M数据集

数据获取

多相机系统：80-140个摄像头、350-450个定向LED点光源和3D校准。图像分辨率：4096×2668。捕获速率：30-90fps。像素平均方差：0.42-0.48。
数据集组成（subjects）：19男+7女
数据集组成（手序列类型）：peak pose（40个左右手预定义姿势+13交互手手势）+ROM（15左右手手语手势+17交互手手语手势）

标注

每只手都有21个坐标标记。
多视觉获取，同一时刻获取6个不同视角的图像，并使用traingulation将2D坐标变成3D坐标。
两阶段标记。第一阶段依赖人工标记，标记者手动标记94914张2D图像。将这些2D标记使用traingulation转换成9036个3D坐标，之后在把3D坐标投影到大约80个视图中，得到698922张图像的2D坐标。第二阶段基于第一阶段标记的2D图像训练SOTA二维关键点检测器。使用该检测器检测未标注的图像，使用RANSAC将2D转3D。

数据集发布

以5fps将图像缩小尺寸到512×334分辨率。
以30fps将图像缩小尺寸到512×334分辨率。

InterNet网络

$\mathbf I$ ：单帧RGB图像。
$\mathbf F$ ：使用ResNet提取的RGB图像特征。
InterNet输出

Handedness estimation

给定图像特征 $F$ 使用看两个全连接层预测手存在的概率 $\mathbf h$ , $\mathbf h=(h^\mathbf R,h^ \mathbf L)\in\mathbb{R}^2$ 。每个全连接层（除最后一层）后面都紧跟ReLU激活函数，最后使用sigmoid激活函数得到概率。

2.5D左右手手势估计

$\mathbf P_{2.5\mathbf D}^\mathbf R\in\mathbb{R}^{J×3}，$ $\mathbf P_{2.5\mathbf D}^\mathbf L\in\mathbb{R}^{J×3}，$ 其中 $\mathbf R$ 代表右手， $\mathbf L$ 代表左手， $J$ 代表单手关节点个数。
为每只手构造两个上采样器，每个上采样器包含3个反卷积层和一个卷积层，每个反卷积层后都接着批量标准化层和ReLU激活函数，上采样器对输入特征图上采样了 $2^3$ 次。上采样器接收特征 $F$ 为输入，并输出每只手的3D高斯热点图。 $\mathbf H_{2.5\mathbf D}^{\mathbf R}\in\mathbb{R}^{J×D×H×W}$ ,其中 $D$ ， $H$ 和 $W$ 分别为热点图的深度离散大小，高度和宽度。

右手相对左手深度估计

构造两个全连接层，除最后一层外都紧跟ReLU激活函数。它接收 $\mathbf{F}$ 为输入，并输出1D热点图 $\mathbf d^{\mathbf R \to\mathbf L}\in\mathbb R^{64}$ ，使用soft-argmax输出相对深度值 $z^{\mathbf R \to \mathbf L}$ 。

最终3D交互手势

$\mathbf{P}_{3\mathbf{D}}^\mathbf{R}=\prod(\mathbf{T}^{-1}\mathbf{P}_{2.5\mathbf{D}}^\mathbf{R}+\mathbf{Z}^\mathbf{R})$ ， $\mathbf{P}_{3\mathbf{D}}^\mathbf{L}=\prod(\mathbf{T}^{-1}\mathbf{P}_{2.5\mathbf{D}}^\mathbf{L}+\mathbf{Z}^\mathbf{L})$ ，其中 $\prod$ 和 $\mathbf{T}^{-1}$ 分别为相机背投和仿射逆变换。
$\mathbf{Z}^\mathbf{R}=[(0), (0), (z^{\mathbf{R}})]$ ， $\mathbf{Z}^\mathbf{L}= \begin{cases} [(0),(0),(z^\mathbf{L})], & \mathbf{if}\ h^{\mathbf{R}}<0.5\\ [(0),(0),(z^{\mathbf{R}}+z^{\mathbf R \to \mathbf L})], &\mathbf{otherwise}, \end{cases}$
其中 $z^\mathbf R$ 和z $^\mathbf L$ 分别为右手、左手根节点的绝对深度。使用RootNet获取左右手手腕的绝对深度。

损失函数

Handedness loss.

使用二元交叉熵损失函数： $L_{h}=-\frac{1}{2}\sum_{\mathcal Q \in(\mathbf R, \mathbf L)}(\delta ^{\mathcal Q}logh^{\mathcal Q}+(1-\delta ^{\mathcal Q})log(1-h^{\mathcal Q}))$ ,其中 $\delta ^{\mathcal Q}$ 表示 $\mathcal Q$ 手是否存在，存在为1，不存在为0。

2.5D hand pose loss.

使用 $L 2$ 损失函数： $L_\mathbf{pose}=\sum_{\mathcal Q\in\mathbf{(R,L)}}\begin{Vmatrix} \mathbf{H}_\mathbf{2.5D}^\mathcal Q-\mathbf{H}_\mathbf{2.5D}^\mathcal{Q*} \end{Vmatrix}_2$ ，其中 $*$ 表示真实标记。如果输入图像中没有手的出现，则将该手的损失设置为0。
真实3D高斯热点图： $\mathbf H_\mathbf{2.5D}^\mathcal{Q*}(j,z,x,y)=\mathbf{exp}\left(- \frac{(x-x_j^\mathcal{Q})^2+(y-y_j^\mathcal{Q})^2+(z-z_j^\mathcal Q)^2}{2\sigma^2} \right)$ ,其中 $x_j^\mathcal Q$ , $y_j^\mathcal Q$ , $z_j^\mathcal Q$ 表示 $\mathbf{P}_{\mathbf{2.5D}}^\mathcal{Q}$ 中 $\mathcal Q$ 手第 $j$ 个的关节点的坐标。

Right hand-relative left hand depth loss.

使用 $L 1$ 损失函数： $L_\mathbf{rel}=\begin{vmatrix} z^{\mathbf{R \to L}}-z^{\mathbf{R \to L*}} \end{vmatrix},$ 其中 $*$ 表示真实标记。如果输入图像只包含一只手，则该损失函数为0。
$L=L_\mathbf h+L_\mathbf{pose}+L_\mathbf{rel}$

实现细节

使用PyTorch框架实现。网络的主干部分使用再ImageNet上预训练的ResNet-50参数初始化，其余参数初始化 $\sigma=0.001$ 的高斯分布。以64的小批量使用Adam更新参数，并使用真实的边框裁剪输入图像手的区域。裁剪的图像被改变尺寸为256×256，空间热点图大小为64×64。使用数据增强策略，包括平移 $(\pm15\%)$ ，缩放 $(\pm25\%)$ ,翻转 $(\pm90^\circ)$ ，水平剪切，色彩抖动 $(\pm20\%)$ 。初始化学习速率为 $10^{-4}$ 并在第15个epoch和第17个epoch衰减10倍。该模型在4个NVIDIA TitanV GPUs一共训练20个epoch，总耗时48小时。InterNet速度为53fps.

实验

数据集和评估指标

STB

STB包含来自同一个人的6对不同背景的立体姿势序列。该数据集使用EPE(end point error)，定义为根节点对其后预测点和真实点的平均欧几里得距离。

RHP

20个不同个体的3D人体模型模拟39种动作。评估指标同样为EPE。

InterHand2.6M

InterHand2.6M数据集的划分：
数据集切割
其中H为人类标注，M为机器标注。
三个评估指标

$\mathbf{AP_h}$ (average precision of handedness estimation)：评估手预测的准确率。
$\mathbf{MPJPE}$ ：同EPE。
$\mathbf{MRRPE}$ (mean relativa-root position error)：预测和真实的右手相对左手深度的欧几里得距离。

消融研究

交互手数据的好处

在相同RootNet训练下，基于交互手数据集的MPJPE小于基于单手数据集的MPJPE，结合单手和交互的数据集表现更好。
MPJPE对比

机器标注的准确率

在人类标注训练集中训练机器标注模型，并在人类标注测试集中测试，测试结果如下图：
机器标注误差
随着视图的增加，误差和标准偏差也在不断的减小，当视图个数为90时，误差为2.78mm。

机器生成标注的好处

对比模型在人工标注和机器标注以及两者同时训练时在不同验证集的误差：
不同模型的MPJPE
在人工标注数据集下训练的模型比在机器标注数据集下训练的模型效果好。在两者训练下的模型表现更加，虽然人工标注比机器标注准确，相对地，训练出来的模型也好，不过人工标注非常耗时。

SOTA对比

不同方法的性能
对比了之前的算法，InterNet学习容易并取得了SOTA的性能。

在InterHand2.6M评估

与单手相比，双手交互的情况复杂，更难分析，学习更难。
InterNet误差相对较大，基于RGB图像进行3D交互手姿势估计远未解决。

普通图片3D交互手势估计

将Tzionas数据集随机划分 $9 : 1$ 为训练集和测试集，在训练时，同时对InterHand2.6M和Tzionas数据集3D和2D监督。在识别的3D热点图上是使用soft-argmax提取3D坐标，然后修改 $L_\mathbf{pose}$ 为预测的3D坐标和真实坐标的 $L 1$ 距离。当输入图像来自Tzionas时，将z坐标轴的损失设置为0。下图展示了成功预测3D坐标的例子。
普通环境下的表现