【文献阅读】手物位姿估计| Interacting Hand-Object Pose Estimation via Dense Mutual Attention

摘要

3D手物联合位姿估计的主要重点是有效地模拟手物之间的相互作用。现有的工作要么要依赖迭代优化的交互约束,要么只考虑采样的手和物体关键点之间的稀疏相关性。

本文提出一种密集的相互注意力机制,它能够建模手和物体之间的细粒度依赖关系。具体地,首先从单眼图像中分别估计粗糙的手网格和物体网格,根据网格结构构造手和物体的图。

然后根据粗糙的网格位置对节点特征进行空间采样。

对于每个手节点,我们通过学习到的注意力来聚合来自每个物体节点的特征,而对于每个物体节点,反之亦然。由于如此密集的相互关注,我们的方法能够产生具有高质量和实时的推理速度的物理上可信的姿态。

在大型基准数据集上进行的大量定量和定性实验表明,我们的方法优于最先进的方法。

code

1 引言

XR和人机交互都要从单目相机中对手物交互进行精确和有效的姿态估计。

尽管在开发有效的三维手姿态估计算[17,25,40,50,47]方面做出了巨大的努力,但由于严重的相互遮挡和不同的手物体操作方式,联合手-物体姿态估计仍然尤其具有挑战性。

未能解决上述挑战的方法往往会产生物理上不可信的配置,如相互渗透和不接触。

为了避免产生不希望的姿势,因此需要深入了解手和相互作用的物体之间的相关性。

三维手物体姿态估计的研究工作可分为基于优化的方法和基于学习的方法。

基于优化的方法[48,13,10]可以推广到不同的物体类,而优化过程需要多次迭代才能收敛,这不适用于XR等实时应用。

相比之下,基于学习的方法[26,14,12,8,11]可以实现实时推理。在基于优化的方法的启发下,引入了软接触损失[14,12],隐式地引导网络追求合理的手-物体交互。

为了更有效的建模,其他工作集中在网络设计中明确学习手-物体相关[8,6]。最近,一些基于注意力的作品[41,11]考虑其在建模复杂相关方面的有效性。在[41]中,一种自我注意机制被用来捕获手或物体的特征依赖性,它们之间的交互作用通过全局特征的交换来建模。[11]交叉注意被用来模拟手和物体之间的相关性。

然而,上面所有的方法都只模拟了来自手和物体的一组预定义的关键点或特征之间的稀疏交互,而不管手与物体的交互实际上发生在表面的物理区域上

在这项工作中,我们建议通过一个密集的相互注意机制来建模细粒度的手-物体交互。与[41]只通过全局特征迁移图间依赖不同,我们允许通过相互注意直接节点到节点的特征聚合。

以手图中的一个节点为例,计算所有物体节点的物体对手的注意,然后将手节点特征与注意加权的物体节点特征融合,显式地建模细粒度的交互相关性。

采用类似的计算来细化针对手物注意的物体节点特征。最后,我们通过配备了所提出的相互注意层的图卷积块来改进手和物体的姿态。

我们表明,我们的方法不像[48,13]那样需要迭代优化,密集的顶点级相互注意比基于稀疏关键点的方法[11,8]更有效地建模手-物体交互。综上所述,我们的贡献如下。

  • 我们提出了一种新的密集相互注意机制,通过在手和物体图之间聚合和转移节点特征,有效地建模手-物体的交互。
  • 我们设计了一种新的手-物体姿态估计管道,便于所提出的相互注意。大量的实验表明,在大型基准数据集上比最先进的方法有更优越的结果。

2 相关工作

2.1 手物位姿估计

以往的工作大多分别处理三维手姿态估计[17,25,40,50,47]和目标姿态估计[27,31,44,49]。

近年来,由于手与物体交互时的强相关性,联合手-物体姿态估计得到了更多的焦点[14,26,28,12,8,13,11]。

对于基于学习的方法,Hasson[14]提出了吸引和排斥损失惩罚物理不合理的重建. Shaowei[28]采用一个半监督的学习框架的上下文推理的手和对象表示。

为了解决缺乏三维地面真相的问题,Kalilin等人[26]引入了一个在线合成和探索模块,在训练过程中从预定义的合理抓取中生成合成的手对象姿势。

与上述工作相比,基于优化的方法[13,48,10]通过首先单独估计初始手和目标姿态,然后用接触约束联合细化它们。

然而,这些方法都是耗时的,因为优化过程通常需要多次迭代才能收敛,从而限制了它们在实时XR系统中的应用。

2.2 基于图神经网络的方法

图卷积网络(GCNs)由于手网格和运动树自然形成图,在三维手姿态估计[9,40,20,5]中得到了广泛的应用。Bardia等人[8]构建了一个自适应图单元(HOPE-Net),将手关节和对象边界框角点与可学习的相邻矩阵相结合。Lin等人的[16]用类似于HOPE-Net的GCNs编码初始2D姿态,作为非自回归变换器中后续三维重建的先验。

然而,上述方法仅从手-对象交互场景中构造稀疏图,而不估计手的形状,因此缺乏表达性。

Tze等人[41]提出了一种协作方法来迭代地细化密集的手和对象图的结果。

然而,迭代细化的计算代价很高,而且对象表示中的无模型方法往往不能恢复准确的对象形状。

2.3 基于注意力的方法

注意机制[43]在人体[7,23]和手姿态[30]估计方面表现出了显著的成功,因为它可以有效地建模长期相关性和聚合成分特征。

Hampali等人[11]提出在稀疏的采样手和对象关键点之间学习注意力。在[41]中,提出了一种注意引导的GCN来有效地聚合手图或对象图中的顶点特征。在迭代过程中,通过交换全局特征来探索手与对象之间的相互作用。

相反,我们建议利用每只手和对象顶点之间的相互注意,更好地学习交互依赖关系。

3 方法

在这里插入图片描述

两个特征提取网络权值不共享。

我们的模型包括两个阶段。在初始阶段,我们首先分别估计给定输入RGB图像的粗糙手(第3.1节)和物体姿态(第3.2节)。结合来自两个分支的粗糙姿态,然后我们在细化阶段使用一个配备了所提出的相互注意层的图卷积网络(第3.3节)来联合细化它们,以显式地建模手-对象交互。

cz

我们用多任务训练目标对所提出的模型进行端到端训练(第3.4节)。

3.1 手位姿估计

我们建议用有限像素来表示一个手的网格。具体地,将3D顶点的坐标定义(u,v,z)为他的映射坐标(u,v)和深度(z)。之后量化像素坐标和深度形成3个独立的一维热图向量( 1 u , 1 v , 1 z 1_u,1_v,1_z 1u,1v,1z), 1 u , 1 v , 1 z ∈ R L 1_u,1_v,1_z \in R^L 1u,1v,1zRL。通过softmax操作进行缩放和归一化后,热图向量的每个条目(称为一个像素)表示像素位置或顶点深度的概率
在这里插入图片描述

L是量化水平,D是根据训练数据估计的相对于腕关节的深度半径, r z r_z rz为腕关节的深度,这些是假设已知的解决单个视图输入中的比例模糊性。

给定相机固有的K、像素坐标和深度,我们可以很容易地恢复相机空间中的三维顶点的欧氏坐标。这样的表征比直接回归3D坐标更加鲁棒和高效,由于解耦了三个组件,它比3D体素表征方法更有内存效率,因为它解耦了三个组件。模型在估计网格顶点和手关节时将产生3个向量(lu、lv和lz),然后使用公式1、2、3将其转换为顶点位置。

在初始化阶段,文章使用两个单独的分支预测粗糙的手物网格。首先通过在ImageNet与训练的ResNet 50从图像中提取特征。

为了指导特征提取,我们附加将最后一层输入估计的图像特征输入到手关节估计器中。

联合估计器仅用于训练中的特征提取监督的目的。在测试过程中,整个联合估计器被移除。

最后,给定最终的图像特征Fh,我们从手网格估计器中得到了一个粗糙的手网格ˆMh∈R778×3

3.2 物体位姿估计

==物体特征提取网络与手特征提取网络,结构相同权值不共享。==使用对象轮廓来监督特征提取。

具体来说,我们设计了目标掩模估计器。

根据图像分割文献[36],我们包括了从图像编码器到掩码估计器的跳跃连接。因此,所有图像特征被转发到估计器,得到物体轮廓

类似地,我们构造了目标网格估计器

在估计对象网格时,我们按照之前的工作[13],假设给出对象CAD模型,并使用ACVD [42]重新采样网格有1000个顶点,以方便批量训练。

需要注意的是,在初始阶段,我们没有直接回归目标粗糙6D物体姿态,而是采用[14]中使用的无模型方法来估计粗糙物体网格

根据经验,我们发现这种策略更健壮,并且它更好地促进了在下一节中引入的特征抽样。

3.3 手物位姿优化

给定粗糙的手物网格,我们之后联合优化他们通过探索他们的相关性。

为此,我们将这些网格视为两个图,并建议使用图的卷积网络(GCN)[22]来捕获图内的依赖关系。

为了进一步建模图间的交互,我们提出了一种新的相互注意层,它允许在两个图之间进行细粒度的特征聚合。

图构建

手和对象由单独的图建模,顶点作为节点,它们的连接在网格结构中定义为边。属于不同分支的顶点被断开连接,并通过相互注意进行通信。在[40]的激励下,我们在初始阶段从特征提取模块中初始化每个图节点的特征。

以手图为例,给定粗糙网格中第n个节点的像素坐标,我们使用==双线性插值操作从图像特征中对局部特征进行空间采样==。

同时,我们将手和物体分支的最终图像特征融合,得到一个包含手和物体网格结构的全局信息的全局特征。初始化的手节点特征作为局部特征和全局特征的串联而计算出来的
在这里插入图片描述

物体图的第m个节点的初始特征
在这里插入图片描述

图卷积

通过图卷积层更新节点特征。对于手/物节点,特征通过以下方式更新的
在这里插入图片描述

直观地说,图卷积层利用网格模型拓扑结构中的相邻相关性,从而可以有效地建模图内依赖关系。

互注意层

如图2所示,在一个或几个图卷积层之后,我们在相互注意层中建模手-对象交互。对于一个图中的每个节点,我们的相互注意层旨在通过注意机制从另一个图中聚合特征。具体来说,对于手图中的每个节点特征,我们首先使用三个一维卷积层来提取查询、键和值,并收集所有查询(query)、键(key)和值(value),其中,它们中的每一行都是特定节点的查询、键或值。这对于手图是同样的过程。然后,我们计算手图的查询和对象图的键之间的对象注意力
在这里插入图片描述

该值第i行,表示所有对象节点对第i个手节点的期望贡献比例(相关性的比例)。之后对物体特征进行加权叠加,获得手对于物体的注意力,相似过程可以获得物体对于手的注意力。

最后通过残差的方式融合到初始特征中。
在这里插入图片描述

由于局部特征是从空间域的插值中检索到的,由于插值中的平均效应,我们期望空间上接近的顶点应该用相似的特征进行编码。

此外,由于我们评估了每对手和对象顶点之间的相互注意,这个过程也允许细粒度的手-对象交互,如实验部分所示,比只注意稀疏关键点之间的方法表现得更好

微调的位姿

微调的手位姿=初始位姿+图神经网络输出的偏移量。

微调对象位姿=average(对象图的每个节点的位姿),我们根据经验发现,这给了一个比从整个图中估计一个姿态更好的姿态。

3.4 训练目标函数

多任务训练目标。

1.采用L1损失来监督粗糙和细化的网格预测。
在这里插入图片描述

2.通过施加边缘损失Le和正常损失Ln来惩罚飞行顶点(flying vertices)和不规则曲面来细化网格质量
在这里插入图片描述

3.为了监督精细的物体姿态,我们对估计的旋转四元数和平移采用l2损失
在这里插入图片描述

4.为了监督手关节估计,我们采用地面真实关节 J h J_h Jh和关节估计器的预测关节 J h ^ \hat{J_h} Jh^之间的关节损失 L j L_j Lj即预测手网格的回归关节,即我们使用MANO [35]模型中定义的关节回归矩阵 G ∈ R 21 × 778 G∈R^{21×778} GR21×778来获得关节位置,然后计算关节损失。
在这里插入图片描述

5.使用交叉熵损失来指导物体轮廓的预测
在这里插入图片描述

6.施加一个手指渲染损失 L f L_f Lf来监督手指在图像空间中的对齐。采用Neural 3D Mesh Renderer (CVPR 2018)进行渲染微调后的手网格,与真值对齐。

然后,我们根据MANO中定义的最大混合权重对每个顶点的手指类型进行分类,并为每个手指提供不同的颜色纹理。
在这里插入图片描述

总的损失如下
在这里插入图片描述

4 实验结果

4.1 训练数据集

数据集

HO3D v2 和 DexYCB s0

为了在DexYCB数据集中进行公平的比较,我们遵循[41]来选择输入帧,其中手和对象都可见,中间距离小于1厘米,以确保可以建立物理接触。

数据增强

考虑到HO3D数据集的规模相对较小,为了便于训练,我们进行了两种类型的增强,即通过视图合成来解决遮挡歧义和通过抓取合成来增加手-对象交互的多样性。

GrabNet生成抓取合成图片。

我们手动验证了合成的姿态在测试集中没有被看到,并且通过经验过滤掉具有接触损失和渗透损失的样本,在物理上是合理的。

我们使用Pytorch3D [34]来渲染合成的增强姿态对应的图像。我们采用HTML [32]模型来处理真实的手的皮肤颜色和纹理,并将渲染的手的对象图像叠加在从室内场景数据集[33]中随机采样的背景之上。【其他的增强方法】

4.2 评价指标

为了一致地将结果与最先进的方法进行比较,我们对每个主要由相关工作报告的每个基准数据集采用了评估度量。详见引文[26,11]补充材料。

HO3D Metrics

HO3D v2 CodaLab挑战中的官方评估指标

平均关节误差(MJE, mean joint error)[51]和平均网格误差(MME, mean mesh error)[52]为根关节和全局尺度对齐后的预测和地面真实关节/网格之间的平均欧氏距离。

此外,我们报告了在从0cm到5cm的区间内,正确关键点(PCK, percentage of correct keypoints)曲线的百分比的AUC

对象

对于对象位姿评估,我们遵循[40]来报告对象网格的MME和标准位姿估计平均最近点距离(ADD-S (average ))[45]。

手物交互

平均穿透深度(PD, penetration depth)接触百分比(CP, contact percentage

DexYCB

平均关节误差(MJE, mean joint error)

物体

**平均角误差(MCE,mean corner error)**为预测对象和地面真实对象网格之间的边界框角位置的距离。

手物交互

平均穿透深度(PD, penetration depth

4.3 实施细节

优化器:Adam 0.9 0.999

batch:24

epoch:25

initial lr: 1 e − 4 1e^{-4} 1e4 decayed by 0.1 after every 10 epochs.

4.4 结果

在这里插入图片描述
在这里插入图片描述

4.5 消融实验

在这里插入图片描述

5 讨论

局限性

因此,我们的方法不能正确地处理手或对象部分包含在图像中的场景。

此外,我们只考虑了可以提供定义良好的CAD模型的类子集中的对象,未来的工作应该考虑手与更多样化的交互对象集之间的交互。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值