【文献阅读】手物位姿估计| Interacting Hand-Object Pose Estimation via Dense Mutual Attention

passionup

已于 2023-02-15 17:42:27 修改

阅读量1k

点赞数

文章标签：人工智能

于 2023-02-15 17:39:14 首次发布

本文链接：https://blog.csdn.net/passionup/article/details/129047506

版权

学习整理专栏收录该内容

22 篇文章 2 订阅

订阅专栏

摘要

3D手物联合位姿估计的主要重点是有效地模拟手物之间的相互作用。现有的工作要么要依赖迭代优化的交互约束，要么只考虑采样的手和物体关键点之间的稀疏相关性。

本文提出一种密集的相互注意力机制，它能够建模手和物体之间的细粒度依赖关系。具体地，首先从单眼图像中分别估计粗糙的手网格和物体网格，根据网格结构构造手和物体的图。

然后根据粗糙的网格位置对节点特征进行空间采样。

对于每个手节点，我们通过学习到的注意力来聚合来自每个物体节点的特征，而对于每个物体节点，反之亦然。由于如此密集的相互关注，我们的方法能够产生具有高质量和实时的推理速度的物理上可信的姿态。

在大型基准数据集上进行的大量定量和定性实验表明，我们的方法优于最先进的方法。

code

1 引言

XR和人机交互都要从单目相机中对手物交互进行精确和有效的姿态估计。

尽管在开发有效的三维手姿态估计算[17,25,40,50,47]方面做出了巨大的努力，但由于严重的相互遮挡和不同的手物体操作方式，联合手-物体姿态估计仍然尤其具有挑战性。

未能解决上述挑战的方法往往会产生物理上不可信的配置，如相互渗透和不接触。

为了避免产生不希望的姿势，因此需要深入了解手和相互作用的物体之间的相关性。

三维手物体姿态估计的研究工作可分为基于优化的方法和基于学习的方法。

基于优化的方法[48,13,10]可以推广到不同的物体类，而优化过程需要多次迭代才能收敛，这不适用于XR等实时应用。

相比之下，基于学习的方法[26,14,12,8,11]可以实现实时推理。在基于优化的方法的启发下，引入了软接触损失[14,12]，隐式地引导网络追求合理的手-物体交互。

为了更有效的建模，其他工作集中在网络设计中明确学习手-物体相关[8,6]。最近，一些基于注意力的作品[41,11]考虑其在建模复杂相关方面的有效性。在[41]中，一种自我注意机制被用来捕获手或物体的特征依赖性，它们之间的交互作用通过全局特征的交换来建模。[11]交叉注意被用来模拟手和物体之间的相关性。

然而，上面所有的方法都只模拟了来自手和物体的一组预定义的关键点或特征之间的稀疏交互，而不管手与物体的交互实际上发生在表面的物理区域上。

在这项工作中，我们建议通过一个密集的相互注意机制来建模细粒度的手-物体交互。与[41]只通过全局特征迁移图间依赖不同，我们允许通过相互注意直接节点到节点的特征聚合。

以手图中的一个节点为例，计算所有物体节点的物体对手的注意，然后将手节点特征与注意加权的物体节点特征融合，显式地建模细粒度的交互相关性。

采用类似的计算来细化针对手物注意的物体节点特征。最后，我们通过配备了所提出的相互注意层的图卷积块来改进手和物体的姿态。

我们表明，我们的方法不像[48,13]那样需要迭代优化，密集的顶点级相互注意比基于稀疏关键点的方法[11,8]更有效地建模手-物体交互。综上所述，我们的贡献如下。

我们提出了一种新的密集相互注意机制，通过在手和物体图之间聚合和转移节点特征，有效地建模手-物体的交互。
我们设计了一种新的手-物体姿态估计管道，便于所提出的相互注意。大量的实验表明，在大型基准数据集上比最先进的方法有更优越的结果。

2 相关工作

2.1 手物位姿估计

以往的工作大多分别处理三维手姿态估计[17,25,40,50,47]和目标姿态估计[27,31,44,49]。

近年来，由于手与物体交互时的强相关性，联合手-物体姿态估计得到了更多的焦点[14,26,28,12,8,13,11]。

对于基于学习的方法，Hasson[14]提出了吸引和排斥损失惩罚物理不合理的重建. Shaowei[28]采用一个半监督的学习框架的上下文推理的手和对象表示。

为了解决缺乏三维地面真相的问题，Kalilin等人[26]引入了一个在线合成和探索模块，在训练过程中从预定义的合理抓取中生成合成的手对象姿势。

与上述工作相比，基于优化的方法[13,48,10]通过首先单独估计初始手和目标姿态，然后用接触约束联合细化它们。

然而，这些方法都是耗时的，因为优化过程通常需要多次迭代才能收敛，从而限制了它们在实时XR系统中的应用。

2.2 基于图神经网络的方法

图卷积网络（GCNs）由于手网格和运动树自然形成图，在三维手姿态估计[9,40,20,5]中得到了广泛的应用。Bardia等人[8]构建了一个自适应图单元（HOPE-Net），将手关节和对象边界框角点与可学习的相邻矩阵相结合。Lin等人的[16]用类似于HOPE-Net的GCNs编码初始2D姿态，作为非自回归变换器中后续三维重建的先验。

然而，上述方法仅从手-对象交互场景中构造稀疏图，而不估计手的形状，因此缺乏表达性。

Tze等人[41]提出了一种协作方法来迭代地细化密集的手和对象图的结果。

然而，迭代细化的计算代价很高，而且对象表示中的无模型方法往往不能恢复准确的对象形状。

2.3 基于注意力的方法

注意机制[43]在人体[7,23]和手姿态[30]估计方面表现出了显著的成功，因为它可以有效地建模长期相关性和聚合成分特征。

Hampali等人[11]提出在稀疏的采样手和对象关键点之间学习注意力。在[41]中，提出了一种注意引导的GCN来有效地聚合手图或对象图中的顶点特征。在迭代过程中，通过交换全局特征来探索手与对象之间的相互作用。

相反，我们建议利用每只手和对象顶点之间的相互注意，更好地学习交互依赖关系。

3 方法

在这里插入图片描述

两个特征提取网络权值不共享。

我们的模型包括两个阶段。在初始阶段，我们首先分别估计给定输入RGB图像的粗糙手（第3.1节）和物体姿态（第3.2节）。结合来自两个分支的粗糙姿态，然后我们在细化阶段使用一个配备了所提出的相互注意层的图卷积网络（第3.3节）来联合细化它们，以显式地建模手-对象交互。

我们用多任务训练目标对所提出的模型进行端到端训练（第3.4节）。

3.1 手位姿估计

我们建议用有限像素来表示一个手的网格。具体地，将3D顶点的坐标定义（u,v,z）为他的映射坐标(u,v)和深度（z）。之后量化像素坐标和深度形成3个独立的一维热图向量（ $1_u,1_v,1_z$ ）, $1_u,1_v,1_z \in R^L$ 。通过softmax操作进行缩放和归一化后，热图向量的每个条目（称为一个像素）表示像素位置或顶点深度的概率
在这里插入图片描述

L是量化水平，D是根据训练数据估计的相对于腕关节的深度半径， $r_z$ 为腕关节的深度，这些是假设已知的解决单个视图输入中的比例模糊性。

给定相机固有的K、像素坐标和深度，我们可以很容易地恢复相机空间中的三维顶点的欧氏坐标。这样的表征比直接回归3D坐标更加鲁棒和高效，由于解耦了三个组件，它比3D体素表征方法更有内存效率，因为它解耦了三个组件。模型在估计网格顶点和手关节时将产生3个向量（lu、lv和lz），然后使用公式1、2、3将其转换为顶点位置。

在初始化阶段，文章使用两个单独的分支预测粗糙的手物网格。首先通过在ImageNet与训练的ResNet 50从图像中提取特征。

为了指导特征提取，我们附加将最后一层输入估计的图像特征输入到手关节估计器中。

联合估计器仅用于训练中的特征提取监督的目的。在测试过程中，整个联合估计器被移除。

最后，给定最终的图像特征Fh，我们从手网格估计器中得到了一个粗糙的手网格ˆMh∈R778×3

3.2 物体位姿估计

==物体特征提取网络与手特征提取网络，结构相同权值不共享。==使用对象轮廓来监督特征提取。

具体来说，我们设计了目标掩模估计器。

根据图像分割文献[36]，我们包括了从图像编码器到掩码估计器的跳跃连接。因此，所有图像特征被转发到估计器，得到物体轮廓

类似地，我们构造了目标网格估计器

在估计对象网格时，我们按照之前的工作[13]，假设给出对象CAD模型，并使用ACVD [42]重新采样网格有1000个顶点，以方便批量训练。

需要注意的是，在初始阶段，我们没有直接回归目标粗糙6D物体姿态，而是采用[14]中使用的无模型方法来估计粗糙物体网格

根据经验，我们发现这种策略更健壮，并且它更好地促进了在下一节中引入的特征抽样。

3.3 手物位姿优化

给定粗糙的手物网格，我们之后联合优化他们通过探索他们的相关性。

为此，我们将这些网格视为两个图，并建议使用图的卷积网络（GCN）[22]来捕获图内的依赖关系。

为了进一步建模图间的交互，我们提出了一种新的相互注意层，它允许在两个图之间进行细粒度的特征聚合。

图构建

手和对象由单独的图建模，顶点作为节点，它们的连接在网格结构中定义为边。属于不同分支的顶点被断开连接，并通过相互注意进行通信。在[40]的激励下，我们在初始阶段从特征提取模块中初始化每个图节点的特征。

以手图为例，给定粗糙网格中第n个节点的像素坐标，我们使用==双线性插值操作从图像特征中对局部特征进行空间采样==。

同时，我们将手和物体分支的最终图像特征融合，得到一个包含手和物体网格结构的全局信息的全局特征。初始化的手节点特征作为局部特征和全局特征的串联而计算出来的
在这里插入图片描述

物体图的第m个节点的初始特征
在这里插入图片描述

图卷积

通过图卷积层更新节点特征。对于手/物节点，特征通过以下方式更新的
在这里插入图片描述

直观地说，图卷积层利用网格模型拓扑结构中的相邻相关性，从而可以有效地建模图内依赖关系。

互注意层

如图2所示，在一个或几个图卷积层之后，我们在相互注意层中建模手-对象交互。对于一个图中的每个节点，我们的相互注意层旨在通过注意机制从另一个图中聚合特征。具体来说，对于手图中的每个节点特征，我们首先使用三个一维卷积层来提取查询、键和值，并收集所有查询（query）、键（key）和值（value），其中，它们中的每一行都是特定节点的查询、键或值。这对于手图是同样的过程。然后，我们计算手图的查询和对象图的键之间的对象注意力：
在这里插入图片描述