每周文献（手和物体三维姿态估计）

开心.960

已于 2025-05-19 15:40:36 修改

阅读量637

点赞数 19

文章标签：论文阅读

于 2024-11-18 17:39:01 首次发布

本文链接：https://blog.csdn.net/qq_62737717/article/details/143862491

版权

每周文献汇报的备忘录，对照PPT的讲稿，个人理解，不一定正确，且部分语言混乱，仅供参考。针对疑点，恳请大家多多指教。

AtlasNet: A Papier-Mach ˆ e Approach to Learning 3D Surface Generation

在此之前，常用的方法都是把输入的latent shape representation（也就是潜在特征向量）直接经过MLP处理后得到3D点云，而这个方法将latent vector和自行sample的2D正方形结合起来了。atlasnet的优点之一就是灵活性，它的输入可以是3D点云也可以是2D图像，将输入经过encoder编码器，如果是3D点云就使用pointnet，2D图像就用Resnet-18，将这些高维数据压缩成潜在的特征向量latent vector，然后就经过MLP这里是decoder解码器。这里使用多个2D正方形，正方形上进行了均匀采样，然后把正方形投影映射到三维空间上，正方形和潜在特征向量结合形成参数化曲面，多个参数化曲面拼接在一起生成物体形状（相当于往物体上覆盖小曲面。因为是曲面，所以它是连续的，得到的重建表面也更符合逻辑，可以更好的得到局部几何特征）正方形结合潜在向量特征得到曲面上的一个点，多个做并集得到三维点云。最后利用PSR泊松分布表面重建得到mesh。

AlignSDF: Pose-Aligned Signed Distance Fields for Hand-Object Reconstruction

这篇论文主要就是将参数化模型和SDF结合起来，参数化模型可以从先验中获益但易形变且分辨率有限，SDF可以表示任意细节但没有先验，AlignSDF先从参数化模型中获得手和物体的姿势，再用它们来对齐3D空间中的SDF，就是使用SDF在姿势标准化的坐标框架中学习手和物体的形状，该框架是根据手腕的旋转和平移进行归一化的。其实就是相当于把姿势和形状这两个任务分开完成，姿态归一化简化了SDF学习的任务，让它可以专注于估计形状，不用考虑全局旋转和平移变换。
然后看一下具体的pipeline，输入RGB图像，然后经过ResNet18提取特征，然后反馈到手部encoder编码网络，进行形状βh和姿势斯塔p的回归预测，然后MANO作为可微层集成到模型里，预测得到手的顶点vh，关节jh和姿势斯塔h。
这个模型设置的坐标系原点是MANO的手腕关节点。然后进行物体姿态估计，需要预测物体的旋转平移，因为旋转预测比较困难，所以这篇论文只进行了物体相对于手腕的平移预测。这里用了体积热图heatmaps预测物体质心的每体素似然，然后用soft argmax算子从热图中提取3D坐标，再利用了相机固有特性和手腕位置将3D坐标转换为手腕相对坐标系，就可以得到物体相对于手腕的平移to。
通过前面的MANO模型，可以得到旋转参数斯塔hr和旋转中心th，这个旋转中心取决于之前得到的形状参数βh，然后利用这些参数把3D查询点x变换为正则手位姿（规范手姿），就是放到规范化的坐标系中。然后吧x和xhc连接起来送到SDFdecoder中，其中I为图像特征，得到符号距离。
同理把物体转换为规范物体位姿，再送到SDF中预测形状。
最后再用Marching Cubes算法在测试时重建网格。

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction

gSDF这篇论文算是在alignSDF上做的一个改进，它的主要两个创新点是：xxx 。整个模型大致的流程是：xxx
接下来说一下具体pipeline：输入图像It，整个模型前半部分要做的是提取得到两种类型特征，运动特征和视觉特征，其中视觉特征部分应用了几何变换来提取对齐的局部视觉特征。先看运动特征，首先训练一个三维手部关节预测模型，生成21个手部关节的热力图，使用soft-argmax算子从热图中提取手关节的三维坐标。然后利用逆运动学从估计的3D关节ψh中得到手部姿态，斯塔h和faih表示第ith个关节相对于其祖先关节的旋转和平移的相对姿态。这篇论文只计算了旋转，没有计算位移，使用MANO中定义的模板位姿计算手腕的位姿，然后按照手部运动链递归求解其他手指关节的位姿，这一步具体用公式来看：A(i)表示第i个关节的有序祖先集合，然后利用exp将旋转参数转换成旋转矩阵，遍历手部运动链，得到第i个关节的全局变换Gh，然后，取ghi的逆乘上x的齐次坐标将x变换成第i个手关节正则坐标。然后就得到了手的运动特征。然后对于物体姿态估计，由于许多物体具有高度对称性，并且经常被手遮挡，通常难以准确估计物体的旋转。所以和alignSDF一样只估计物体ψo的平移，没有估计旋转。因为抓取手的姿势也提供了关于物体形状的提示，所以这里加入了手的位姿特征信息。所以物体的运动特征主要包括：xxx。然后就是视觉特征部分。vrt是由SDF特征编码器生成的特征映射，本文用的是resnet。本文为了提高单帧视觉特征在遮挡或运动模糊中的鲁棒性，利用了视频中的时间信息，就是把视频中该帧图像相邻的几帧图像的特征映射平面化为一个序列，经过一个transformer重塑变成该帧的特征映射。再用相机投影矩阵把x投影到平面上，然后用来双线性采样从特征映射对应位置上得到局部特征ev。最后再把加入了特征的查询点和特征信息进行SDF得到预测建模。

HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed Distance Fields

首先看一下第一部分全局SDF学习模块。这一部分主要是提取手和物体的全局信息。使用标准的编码器-解码器架构U-Net提取得到图像层次特征F，然后对2D的（热力图、手物分割掩码）进行预测回归，然后这里它直接在原始空间中学习sdf，而没有使用位姿预测旋转到规范空间。所以说这个SDF模块将专注于手和物体的全局信息（例如，一般形状，位置和全局旋转）。
这一部分具体来说就是给定一个3D查询点p将它投影到二维图像中，同时用UNet提取图像特征与查询点的二维投影结合，然后将查询的图像特征连接起来，送到多层MLP中获得特征向量，就是这个公式，派3D到2D表示投影和插值运算，F表示UNet解码器提取的图像特征，X表示对UNet分层特征的集合，加号表示对所有分层像素对齐图像特征进行拼接。最后得到fimg特征向量，同时用傅里叶位置编码将p的坐标表示展开为向量fpos。将p、fimg、fpos结合成为fsdf送到场解码器得到dh（p到手部网格面的最短距离）do为物体的。
然后是第二部分，整合场信息，进行场引导姿态回归。在这里作者提到了预测姿态的三个挑战。针对第一个问题，作者希望在同时只查询几个点的情况下提取最有用的场信息，所以作者对场信息点进行了采样。首先用Nv个bins对三维空间进行体素化，得到Nv3个查询点。先用手和物体的边界框过滤二维的点，然后将剩余点送到SDFh\o中，分别选Nv2/nh，Nv2/no个查询点，nonh是两个控制参数。同时建立在一个假设的基础上，即靠近ground-truth曲面的查询点是信息量最大的，因为在训练的时候可以访问真值网格，所以对靠近真值的查询点Nh No个（小于4cm）进行速度内存优化。
然后针对第二个问题进行基于场的点特征增强。给定一个采样得到的手查询点ph，将前面的dh转换为体积密度c戈玛h，a是一个可学习参数，控制表面边界周围密度的紧密型。最终得到手查询点特征向量fh，同理得到fo。
针对第三个问题，这里进行了一下手物交互，对于采样的物体查询点po，将其发送给手SDF解码器SDFh，以获得交叉手sdf最短距离doh。doh再转换为体积密度σoh，并用于增强查询的图像特征，得到交叉查询点特征foh。同理得到fho。
之后进行加入注意力机制。将提取的Nh手查询点特征fhi发送到一个手注意模块，该模块由6个多头自注意（ MHSA）层组成，同时，为了利用交叉查询点特征fohi内的对象线索，也将它们和fhi一起发送到MHSA层SA进行交叉关注，得到增强的手查询点特征，同理得到物体的。
最后进行逐点位姿回归。前面全局一致的信息和交叉目标线索整合到手点特征fehi和物体点特征feoi中，除此之外，还需要更丰富的信息，这里用到了mano参数学习得到位姿估计（旋转、形状）。除此之外进行联合偏移估计，中心偏移、旋转偏移估计，最后输出得到建模结果。

HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions

这篇文章的重点就是生成具有可靠标注的逼真多样的交互图像。文章中提到现有的数据集，例如DEXYCB和HO3D是实验室捕获的真实数据集，有相对准确的3D标注，但样本有限缺乏多样性，且收集昂贵繁琐，野外数据集YouTubeHands有丰富变化，但只有伪标注，没有准确性保证；合成数据集obman等照明不一致，结果不现实。
框架分为三部分：条件创造；手-物图像合成；利用合成的样本有效地训练不同类型的重建模型。
第一部分：条件创造。这一部分主要是为了能够把重建推广到更多未知场景，通过一些策略创造一些新的手和物体的姿态，并与现有姿态结合，从而创造新的多样的条件。先看一下左边姿势准备部分，因为在视频序列中不是所有帧都涉及到物体抓取，所以分为抓取和非抓取两部分，只有抓举部分会被增强来合成新视图，但是数据集中没有它是不是抓取状态的标签，所以作者计算了视频序列中初始姿态和当前帧姿态直接的各项同性相对旋转误差和平移误差RRE和RTE，计算式子如下，其中or是旋转矩阵，ot是平移向量，上标0和t表示第一帧和第t帧，如果超过阈值则算为抓取。然后就是生成新的手的抓取姿势，和物体形成新的建模，这里作者利用了Dexgraspnet生成姿势，不过可能会生成一些不必要的姿势，所以作者设置了验证过程满足三个标准：手必须与物体接触；无明显手物体交集；手无自穿。右边这一部分是进行相似感知采样。先定义一个位姿向量v，其中hs和oq分别为手姿态和物体旋转的四元数表示，ot为平移向量，v是它们的合成。作者进行了两种采样。一种是内部分布采样。为了促进姿态多样性并避免相似重复姿态过多(比如抓取同一物体产生的姿势过于相似，就需要剔除)，作者采用了一种最远姿态采样（FPS）策略，为每个对象类别尽可能均匀地选择姿态。其中vi是初始集合除去采样部分后的集合的位姿向量，vj是采样集合位姿向量（这个采样我认为是进行了一下随机采样得到的），做了一个位姿余弦距离，采样距离远的，这样得到的采样姿势彼此之间更独特。然后另一种是交叉分布采样，作者利用真值姿态和合成姿态之间的相似关系来控制合成数据的采样概率。就是对于每个对象类别，计算相似矩阵，并将其转换为采样过程的离散概率分布P，其中范数表示最小最大归一化，合成姿势的采样概率与它和真实世界姿势的相似性成反比，从而产生更平衡的分布。
第二部分图像合成，这一部分的目的是执行3d到2d投影，同时保留足够的信息来构建内容感知条件，然后利用它们来引导条件扩散模型生成逼真的手物图像。为了减少3d到2d投影过程中的信息丢失，降低学习难度，作者选择了信息丰富且可解释的条件来合成手物体图像。在数据集中有骨骼，前景分割，语义分割，深度图，法线图，纹理图。作者选择了纹理图和法线图。因为纹理图同时包含形状和颜色知识，且与深度图相比，法线图的手和物体的不同部分更容易区分。但是依靠二维图像无法捕捉手部三维方向的微小变化，所以重建过程中回归误差会较大。于是作者加入了另一个条件来促成方向感知生成，它把每帧手部的方向特征使用四元数表示，嵌入到潜在空间中，并纳入扩散模型的几个阶段。然后说一下扩散。正向扩散就是走马尔可夫链，高斯噪声逐步添加到真实世界的数据样本x0 ~ q(x)中，产生有噪声的过渡序列x1， x2，…， xT。为了便于训练，作者用一种参数化方法在任意时间对x进行采样得到xt。然后采用一个unet的无分类器去噪模型fθ（·）来学习反向扩散，利用前面从mesh（用m表示）获得的内容感知条件来控制从各向同性高斯噪声中生成手物图像^x0。用公式表示，其中Concat（·）表示通道级连接操作；N和c分别表示法线贴图和纹理贴图；hq为手部方向，采用四元数表示；时间戳t通过位置嵌入（PE）进行编码。之后进行损失计算，其中w是用于增强前景的逐像素加权图，使用手-对象分割图作为遮罩，并将背景的权重降到极低。同时进行边缘情况过滤，将得到的^x0与m进行误差预测，排除超出预定阈值的显著误差的边缘情况样本。
第三部分手网格重建，一个是用Mano系数做损失，一个是用顶点做损失，把合成数据应用到handccnet（基于mano），MobRecon（基于顶点）和H2ONet（基于顶点），进行评估。

Coarse-to-Fine Implicit Representation Learning for 3D Hand-Object Reconstruction from a Single RGB-D Image

首先输入RGB和depth map深度图，采用两个平行沙漏网络（2016ECCV）作为双支路编码器，提取RGB- D全局图像特征Fglobal，这里用了一个空间注意机制（Cbam:Convolutional block attention module）把RGB和深度图的特征融合，然后通过2D-3D投影将RGB-D视觉特征提升到3D空间。这里用到了2023AAAI的方法（没有用PointNet，减少计算成本），根据下采样深度图中对应图像坐标的深度值，通过相机的内在参数计算每个RGB-D特征像素的三维坐标，得到多模态点云特征F3d∈R Npcl×C，其中Npcl表示深度点特征点云的个数。
然后先进行粗级SDF学习。设置查询点x，每个查询点都使用前面提取到的全局图像特征Fglobal进行编码，感知全局上下文信息，然后使用全局SDF解码器得到初始带符号距离。再进行语义细化，提取手-物体表面附近的3D点作为手和物体点云，远离表面的点作为噪声和背景过滤掉，得到手和物体分别的点云。
然后是精细级SDF学习。前人提出了的像素对齐隐式函数PIFu，用于二维像素特征对齐，公式如下，对于三维查询点x， Z(x)表示相机坐标空间中的深度值，π(x)表示x的二维投影位置，F（π(x)）表示双线性采样获得的像素对齐图像特征。像素对齐的特征允许学习函数保留图像中存在的局部细节，但是会缺乏全局上下文信息。作者对这个函数进行了改进，提出了三维点对齐隐式函数（3D PIFu）,公式如下，对于每个查询点x， FPA表示三维点对齐特征，该特征是通过对查询点的三维邻域点云特征进行自适应加权聚合得到的。在查询点的三维坐标上，从点云特征F3d中选择K个最邻近点特征，并通过通道去微分操作将空间位置信息和签名距离信息融合到所选点特征中。第K个点特征赋值的公式如下。其中Fk3d表示第K个点的点云特征，PK表示在第K个特征深度点的坐标，DK表示第K个深度点到手或物体表面的有符号距离值（SDF值），w0、w1、w2为点特征嵌入的可学习参数矩阵，ReLU、BN表示ReLU激活函数和批量归一化层，K默认为16。然后，根据每个点特征到查询点和手-物体表面的距离，自适应聚合K个点特征，生成三维点对齐特征如式，式中（dx，Pk）表示第K点与查询点之间的三维欧氏距离，α为可学习参数，调整距离尺度。这样，3D PIFu可以有效地利用局部几何结构信息，从而减少深度歧义。此外，全局SDF提供了手和物体的语义先验，使精细级SDF学习能够感知全局上下文信息，消除语义歧义。最后进行表面感知高效重建。现有的基于sdf的方法经常是对三维空间进行体素化，然后将密集采样点映射得到SDF值，再用Marching Cube算法得到网格。这一过程涉及到远离手-物体表面的大量查询点的冗余计算，导致效率比较低。这篇论文的作者想减少冗余点计算，于是体积热图来估计体积语义热图，并有选择性地对手物体表面附近的查询点进行采样。具体实现：先使用全局特征Fglobal来预测低分辨率体积热图。每个体素值对应于三维区域内手顶点和物体顶点的密度。这里应用3×3×3平均过滤器来平滑热图中的异常值。然后为了增强鲁棒性，作者使用手和物体的形状先验来补充稀疏的点云。其中手部分作者利用预测了MANO顶点来完成手点云。物体部分利用物体固有的对称性，对物体中心进行优化，计算中心对称点来补充物体点云。然后将补充好的点云和体积热图的分层表面位置信息合并，得到体积语义热图。最后，结合语义热图，对相应体素内的采样点进行稀疏SDF查询，再用Marching Cubes重建得到mesh。这一部分去掉了离表面比较远的点，减少了计算。

MLPHand: Real Time Multi-View 3D Hand Mesh Reconstruction via MLP Modeling

MLPHand先是经过多视图手骨架估计器，做一个准备工作，然后再经过多视图几何特征融合预测和S2K，右边是它的训练策略。首先输入多视图图集In，经过CNN捕获图像特征映射Fn，作者想要在每个视图中估计手部骨骼的2D位置，所以先让图集In经过卷积神经网络骨干网络得到2D似然热图hn，然后对hn应用soft-argmax函数（预测点位）得到手部骨骼2D位置sn∈R 21×2。之后作者采用直接线性变换（DLT）三角测量将2D提升到3D空间，得到参考骨架X拔。其中Kn和Tn分别为第n个摄像机的内外参矩阵。卷积网络本文具体采用ResNet34、ResNet18和MobileNetV2。
这篇文章重建的核心思想是把手部骨架转换为手部Mesh，本文采用了现成的模型skeleton2mesh，这个模型包含两个策略分别是per-bone和tri-axis。
Per-Bone重建将非凸手形状按照定义的顺序划分为20个面向骨的凸网格组件，并以参数共享的方式表示这些几何形状，从而使网络轻量化。tri-axis建模采用三个并行的MLP网络独立回归相对于骨骼中点的xyz偏移量，作者将这两部分设计为顺序编码模块和偏移量回归模块。
其中顺序编码模块中，如上面所说得到20个骨骼面B，然后引入了一个可学习的全局空间描述符（GSD） g = MLP(X): R 21×3→R 100来提供补充空间信息，以防止手掌的几何坍缩，然后从B获得6D姿态的推导和对GSD的分析，然后为了捕获顺序信息，引入一个one-hot编码向量O作为标识符，提供参数共享。具体用公式表示就是。其中PE（·）表示基于元素的位置编码函数。OE(X)k整合了第k个骨骼的空间信息和顺序信息。
然后是偏移量回归模块，设计灵感来自d图，长方体从状态1到2经过旋转和平移两个阶段，可以把每个顶点表示为v，r为旋转矩阵。所以每个坐标都可以单独处理，作者应用到手上，如e图，由当前骨骼方向决定的自旋转和由骨骼中点决定的平移。然后用三个独立MLP，用LeakyRelu回归偏移得到xyz轴偏移量。
然后是第二部分多视角几何特征融合，上面通过骨架其实已经可以预测mesh了，但是缺少几何形状细节，所以作者提出了MGFP模块。刚开始我们已经得到特征映射Fn，然后用内外参将3D点X重新投影到2D中，得到骨架Pn。通过网格采样将P和F对齐，不同视图进行通道级连接，获得每个关键点的多视图几何特征Gk。Gk放入MGFP模块中。该模块通过多视图特征注入器（称为MFI）模块将Gk注入到训练好的Skeleton2Mesh模型中，以提高其几何精度。“零FC”（一个用零初始化的完全连接层）层，建立中性基础的参数增长，从而减轻引入外来噪声，然后经过FC，逐步加入到S2M中，因为是多视角融合，所以我没有具体看（我的方向是单目）。然后训练有两个阶段，先进行S2M的训练得到先验知识，再对多视图进行后验估计。

DDF-HO: Hand-Held Object Reconstruction via Conditional Directed Distance Field

先前基于sdf的方法IHOI通常对以其投影为中心的局部斑块内的每个采样点进行特征聚合，因为聚合的特征可能不包含预测交集所需的信息，如图1 （S-2）所示。当采样点距离物体表面较远时，其局部特征甚至可能完全从背景中提取出来，而DDF除了射线表示{P， θ}外，作者还为每个采样的3D射线结合了两个额外的特征源F2D和F3D，以有效地聚合预测DDF值所需的所有必要信息。包括初始化、射线采样、基于2D光线的特征聚合、三维交叉感知手嵌入，最后重构。

初始化：首先给定单个RGB图像I，采用一个现成的框架来估计输入图像I的手部关节θH和相应的相机位姿θC，其中θH在参数化MANO模型中定义，具有45D关节参数，θC表示视角相机相对于世界框架的6D位姿。然后作者给定原点P∈B，方向θ∈s2的3D射线{LP，θ}，对射线进行采样，并将射线转换为具有之前求得的预测手姿θH的归一化手腕框架，这里转换利用了IHOI。之后进行射线特征聚合，先通过ResNet提取图像I的层次特征图，编码二维线索，得到二维特征插值。然后把三维射线投影到2D中，得到2D射线，这个射线的原点p可以用这个式子表示。其中Pz表示三维原点P的z分量，方向θ∗确定为从p到另一点P∗在3D射线上的投影的法向量，这样得到投影的二维射线lp，θ∗。然后对射线采样Kl个点，并对所有Kl点分别提取局部斑块特征F2Dl = {Fi}，通过双线性插值在I的分层特征映射上提取原始投影p的特征Fp2D，再利用交叉注意力机制，得到F2D，其中MultiH为多头注意。这一部分的主要工作就是将每条3D射线投影到从I提取的特征映射上，得到一条2D射线{lp，θ∗}或一个点。

下一部分三维交叉感知嵌入，它先编码全局手部姿态嵌入fg3d，用到了whatis in your hand那篇文章的方法，然后就是求取局部几何特征fl3d，表明每条光线与手相交。求局部几何特征这部分具体来看，是先利用MANO模型和预测的手部关节参数θH构建了从LP，θ到手骨架的最短路径，也就是求了一个有最短距离的射线，就可以得到了LP上的起点PS，θ和手骨架上的终点PD。再利用测地距离检测PD在手骨架上最近的K3D相邻手关节。将PS转换为由MANO模型表示的被检测手关节的局部坐标，即以关节点为原点的坐标系，将所有PS的局部坐标串联起来，得到FL3D，其实这一部分就是在将光线与手部关节的交点封装为局部几何线索，以描述手-物体交互关系。然后就得到了F3D。那么整体特征就可以表示为基本射线表示{P， θ}、二维投影射线特征F2D、三维交叉感知手特征F3D。

最后进行重建，这里利用8层MLP将F映射到相应的DDF值。这里的损失函数除了包括深度项、可见度项之外还加入了一个对称项。为了确定物体是否对称，作者认为将物体表面的采样点P在XY平面上翻转，得到P '。然后比较了物体表面与P '之间的倒角距离。如果距离低于阈值（1e-3），则认为对象是对称的。扩展开来，对于构建两个双射集B1: {P1， θ1}和B2: {P2， θ2}，这里是随机采样原点P1: {(x1, y1, z1))}和方向θ1: {(α1, β1, γ1))}来构建B1。由于物体是对称的，因此B1和B2中对应射线的DDF值D1， D2应该是相同的，这就建立了对称损失项。

MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision

给MOHO网络送入分割后的手物图像，通过frankmocap估计相机姿态、手的姿态，然后MOHO就开始提取与领域一致的遮挡感知特征。作者先利用预训练的 DINO 模型得到语义线索，该模型提供具有一致结构信息的局部描述符来指示观察到的对象部分在整个形状中的位置。利用语义线索为MOHO提供高级结构先验，用于模态对象感知。预训练的DINO模型D提取patch-wise特征映射，So为离线估计物体分割部分。由于 MOHO 采用体渲染（Nerf），需要将特征图 Fsl 转换为 3D 采样点对应的特征。给定相机姿势PI和相机参数K，首先将沿采样射线的3D点{Pi}投影到图像平面上，得到对应的像素位置（二维）。通过双线性插值在Fsl上获取每个采样点Fsi的遮盖颜色特征得到Fs。
然后是手部特征。通过计算从射线采样点Pi到最近手部关节的测地线距离。首先使用frankmocap从图像中获得θA。然后，运行MANO模型的正运动学来推导变换T (θA)和手关节坐标。之后，采样点 Pi 通过变换矩阵映射到最近的 K 个手部关节坐标。最后，将采样点在最近的 K 个手部关节坐标中的 K 个位置串联为 Fhi以提供距离信息。在实现期间选择 K = 6。
之后为颜色特征，使用 ResNet34作为图像编码器fai来提取手持物体的纹理。FCi与FSi生成同理，都是通过投影、插值得到的。然后进行条件几何体渲染，以渲染新颖的视图并生成纹理网格。给定从单个参考视图 I 中提取的三维采样点 {Pi}、射线方向 {Di} 和相应的点特征 {Fi con} = {Cat(F i s , F i h , F i c )} 后，会构建一个预测 SDF 值 si = ψS(Pi |Fi con) 的几何场 ψS，以及一个预测 RGB 密度 ci = ψC (Pi , Di |Fi c ) 的颜色场 ψC。对于体渲染，三维点 {Pi} 沿着摄像机光线采样，采样率为 {P} = {P(z)|P(z) = O+zD, z∈ [zn, zf ]}，其中 O 表示摄像机的原点，D 指每个像素的观察方向，zn、zf 分别为光线的近边界和远边界。O 和 D 由输入的相机姿态 PI 和相机参数 K 计算得出。进行体渲染得到新视角图片。
在合成预训练阶段，作者利用大型渲染数据集 SOMVideo 培养 MOHO 在三维和二维空间中感知物体手部遮挡区域的能力。按照合成物体操作场景的生成流程，作者为 MOHO 提供了合成物体操作视频（SOMVideo）数据集，该数据集拥有大比例的手部物体图像以及相应的无遮挡多视角监督。为了消除三维空间中由手部引起的遮挡，MOHO 输入由手部遮挡的参考视图 I ⊙ So（⊙ 表示位相乘），并由新视图中的合成完整对象进行监督（图 2 (T-1)）。输入到 MOHO 的参考视图是手部物体图像，而监督视图则是相应的新姿势无遮挡渲染图片（图 2 (T-1)）。在预训练的每次迭代中，MOHO 都会收到一张手部物体的参考图像，同时还会收到 8 个采样的新视图。此外，辅助的二维模态掩码恢复头Γ（图 2 (T-2)）用于预测二维空间的概率手部覆盖图，其中二维恢复头结构参考18年ECCV，式子如下，Fci是前面定义的颜色特征图，这样的话二维手部覆盖感知增强了 MOHO 处理手部遮挡模式的能力。经过预训练后，迁移参数，MOHO 会通过真实世界的手部物体视频进行微调，以便更好地应用于真实世界的推理。T3利用预训练的二维头部预测的手部遮盖图构建软约束，并引入模态掩码加权几何监督，以重建完整的手持对象。（为此，我们在真实世界微调阶段冻结二维恢复头，并推断出概率手部覆盖图（图 2 (T-3)）。这些地图被视为所提议的模态掩码加权几何监督的放松约束。）

3D Reconstruction of Objects in Hands without Real World 3D Supervision

这篇论文主要是在22年CVPRwhat's in your hand这篇文章上改进，手物重建整体思想还是用的这篇论文的AC-SDF，给定输入的RGB图像，AC-SDF（resnet50 像素特征对齐）使用神经网络来预测3D点的SDF。而这篇文章作者主要是在监督和形状先验这里进行了创新，这种方法无法获得SDF值，因为在没有3D物体模型的情况下无法估计到物体表面的距离，所以作者把sdf函数替换为了本文提出的占用函数。提出了使用从野外视频中提取监督和从3D对象集合中学习形状先验的模块，以训练占用网络，这个网络从单个图像中预测手持对象的3D形状。

先说一下监督这一部分，这里进行了2D蒙版mask引导3D采样：这里用visor数据集，考虑多个视图{I1，…，In}的手持对象，连同他们的mask{M1，…、Mn}。将在3D空间中采样点x投射到不同的视图中。在所有视图中投射到物体mask中的任何点x都被认为是被占用的，而如果它在一个视图中投射到mask之外，则被认为是未被占用的。用式子来表示占用标签。如果说投影点xpi在物体mask内，那么Mixpi=1。虽然我们可以使用这种策略获得3D占用标签，但有两个重要的考虑因素：相机姿势未知（投影所需）以及如何平衡物体内外点的采样（大部分都是物体外的点）。因为很少在涉及小型刚性物体的拾取和放置任务中进行手动操作，所以作者假设手与物体一起刚性移动，就是假设手怎么移动物体就怎么移动。这样的话手在不同视图之间的相对姿态揭示了物体的相对姿态。这里作者使用FrankMocap 手关节参数{θ1，…， θn}来记录不同的视图，（手关节参数，腕关节旋转参数，弱透视相机参数，比例因子等）转化成一个完整的视角相机K 。这样解决了相机姿势未知的问题。然后是平衡物体内外点采样问题，先设置采样点的总数为q。采用策略对物体内部（s gt = 1）和外部（s gt = 0）的点进行平衡采样。作者在归一化手坐标系中统一采样q/2个3D点，并将这些点投影到所有可用的视图中。由于所有这些q/2个点可能没有被占用，就可以使用拒绝抽样来重复这个过程，最多t = 50次，或者直到得到q/2个被占用的点，这样得到的采样点大部分都在物体上。是否被占用用式子表示如下，其中xpi是x的投影。在所有视图中投射到手部遮罩的所有点和MANO手部的顶点都被标记为未占用。作者忽略了投射到某些视图中的物体遮罩和但在其他视图中的手遮罩上的点，因为这些点可能由于手遮挡而属于物体。然后使用交叉熵损失（CE）来训练F。2D蒙版mask引导3D采样结束。
然后是基于二维切片的三维鉴别器作为形状先验：这里使用来自ObMan数据集的手持物体学习数据驱动的3D形状先验。作者通过物体对平面进行采样，得到一个二维截面图，对这些横截面上的点进行占用预测，然后作者训练一个判别器D来区分obman提供的3D形状和F预测的生成的形状，采用对抗训练框架（生成对抗网络）对手持物体的形状建立先验，并用它来监督占用预测函数F。说一下细节，在进行2D切片采样时，多数点位于物体外部，在手部坐标系中对经过原点的2D平面进行采样。以任意角度旋转采样的二维平面，使它们不与轴线对齐，以更好地捕获细粒度的形状信息。然后将生成的三维形状的二维切片中的采样点通过F，得到相应的占用值Sgen，这表示生成的三维形状。然后作者采用相同的策略来表示来自ObMan的3D形状（用作真实形状），使用网络在ObMan上过拟合的预测Sreal。使用最小二乘公式训练鉴别器D得到损失来区分S根和S实。通过计算采样点占用值的梯度送到D判别器来获得F的监督。作者先是在合成ObMan上进行预训练。然后在ObMan （3D监督，形状先验）和VISOR （2D监督）上联合训练模型，数据集比例为ObMan:VISOR为1:2。

What’s in your hands? 3D Reconstruction of Generic Objects in Hands

这篇论文是非常典型的未知物体类别进行单视图手物重建。首先输入图像I，利用frankmocap推断出底层的手部姿势 θ 和相机姿态 π，通过预测的全局变换对手部查询点进行变换，然后通过相机矩阵进行投影。投影式子如下，式子中K 是摄像机本征（相机参数），Tθw 是手的全局刚性变换（旋转平移）。对于手腕坐标框架中的一个查询点，点式推理网络主要考虑视觉编码器提供的查询点的相应视觉特征，以及关节感知位置嵌入器提供的查询点与每个关节点的相对位置。然后将视觉特征和嵌入与查询一起传递给隐式解码器，以预测SDF距离。那么以关节作为线索的SDF主要由视频编码器、关节位置嵌入器构成。视觉编码器首先提取不同分辨率下的图像特征金字塔。对于手腕坐标系中的的三维查询点，视觉编码器会将其投影到图像坐标，并从金字塔中计算全局和局部特征。视觉编码器主要用resnet，全局特征是平均 conv5（第五个卷积block中，这个block包含多个卷积层，而conv5是该block中的第一个卷积层）特征的线性组合。每个点的局部特征是图像坐标上的内插特征，该坐标由预测的相机姿态 ϕ[πθw (x)]投射而来，其中 ϕ 表示 Resnet 特征， ϕ [x] 表示 2D 位置 x 上特征的双线性采样，这样就获得了相应的视觉特征 ϕ = g(π(x); I)。因为手的姿势可以预测与之互动的物体形状。对于重建经常被遮挡的手持物体来说，是视觉线索的补充。所以作者还用到了关节位置嵌入器，通过查询点相对于关节的位置来编码手部姿势信息。关节位置嵌入器将关节参数θA 和腕框 X 中的点位置作为输入，输出关节感知编码，然后将腕部框架中的一个点映射到每个关节坐标。对 15 个关节坐标进行位置编码，并串联成最终表示成该式，其中 γ 是位置编码器。最后通过隐式解码器，解码器沿用 DeepSDF 中的设计，由 8 层 MLP 和一个跳跃层组成。其中对数据进行预处理，对手部周围物体内外的点进行采样，以计算地面实况 SDF。95% 的点在物体表面周围采样，其他点在空间中均匀采样。由于物体重构利用了视觉线索，作者认为它可以提供补充信息，进一步完善预测的手部姿势。在推理过程中，优化--鼓励接触，同时不鼓励交叉。根据这两个交互项来优化关节姿势参数。为了抑制手与物体之间的交叉，如果物体重构模型预测手表面的点具有负 SDF 值，就会对其进行惩罚。根据之前的工作，鼓励在特定区域内进行手与物体的接触--如果这些接触区域内的表面点靠近物体表面，则鼓励它们靠得更近。但是改进手的姿势时，物体的 SDF 也会发生相应的变化。
这里作者选择在手的姿势优化过程中固定 SDF，只在使用最终优化姿势 θ 时更新一次。

Reconstructing Hands in 3D with Transformers

hamer采用了一种简单的设计，主要研究了扩大训练数据和深度模型架构容量的效果。Pipeline：根据上述两篇文章，作者使用了ViT(已有视觉变换器)作为主干，然后是一个transformer-based，用于回归手部和相机参数。首先将输入的 RGB 图像转换为patch（小块区域），然后将其作为tokens送入采用 "huge"设计的 ViT，即 ViT-H。ViT 主干网处理patch，并返回一系列输出标记。Transformer head是一个解码器，在交叉处理 ViT 输出标记的同时处理单个标记。trans head的输出返回输入图像的参数 Θ，包括姿势参数 θ∈R 48 和形状参数 β∈R 10 和相机参数Π，再送入MANO模型得到mesh。训练模型时整合了多个提供二维或三维手部注释的数据集（包括ho3d dexycb coco等等），产生了 270 万个训练实例，比FrankMocap 系统的训练集大 4 倍，同时这篇文章提出了一个新的注释数据集HInt，通过对不同图像来源的手进行注释，包括 YouTube 视频和自我中心捕捉图像。注释包括二维手部关节关键点，以及每个关节的可见性（是否被遮挡）标签。作者为 40.4K 只手提供了二维手部关键点注释，其中 86.7% 是自然接触的手。测试对比时，从沿用 FrankMocap 的基本设计开始，使用 ResNet50 架构和少量训练集（第 2 行）。将训练数据量增加 4 倍（第 3 行）或采用大容量 ViT-H 架构（第 4 行）后，2D 精度比基本模型有了明显而持续的提高。结合数据规模和高容量架构，即所提出的 HaMeR（第 5 行），以较大的优势获得了最佳结果。应用：可以在多种场景下重建手部，包括从不同视角（第三人称或自我中心视角）、在遮挡状态下、与物体或其他手部互动的手部、不同肤色的手部、戴手套的手部、艺术画中的手部或机械手部的捕捉。改进：鉴于主要设计非常简单，以前工作中的不同选择可以与HaMeR 架构相结合，这有可能带来进一步的改进。

Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation

之前的方法都是纯视觉方法，恢复手和物体的整体几何形状和姿态，但由于缺乏接触区域信息，在处理物体变形等接触细节方面比较困难。所以这篇论文提出利用分布式力感知接触表示法来动态重构手与物体的交互。
论文提出了一个...如图片所示，也就是说手上带着分布式触觉传感器，哪里接触了会在传感器上显示出来。同时提出了一个数据集Hot。
看一下具体PipeLine，视觉输入是由三维点云实时流组成，设本时刻该帧点云为Pt，是从单视角深度图像中提取的。
ViTaM-D 分两个阶段跟踪重建手物状态：视觉动态跟踪（VDT-Net）和力感知优化（FO）。第一阶段就是纯视觉重建，VDT-Net 首先利用一个流量预测模块预测从上一帧到当前帧的点云变化流量，并从中提取融合视觉特征。然后将特征转入物体解码器和手部解码器，重建物体和手部的mesh。具体来看，在第 t 帧，作者使用主干网络 I 从点云 Pt 和 Pt-1 中提取每个点的特征 Ft、Ft-1，用的是简单的 PointNet++进行特征提取。然后，设计一个流量预测网络 Ff (.)，预测从 t - 1 帧到 t 帧的点云的流量变化，具体怎么预测主要就是对两帧点云的特征进行计算，观察第一帧中的点是否在第二帧中匹配。通过这个网络得到一个匹配概率矩阵 pm ，表示了两个点云集之间的对应可能性，然后计算两个点云集 D的差异，得到差异特征Fd，最后用Pointnet++回归，这就得到了一个点云flow流量预测网络。然后把Pt-1加上预测的点云流，实际上就是结合相邻帧又预测了一个Pt，送到另一个 I ′ 网络得到视觉对应特征Ft-1'，把Ft-1'和 Ft 被传送到transformer融合模块，以获得与当前帧点云 Pt 相对应的最终视觉特征 Fv，这既考虑了本帧静态信息，又考虑了相邻帧流动信息。
然后分别送入物体和手部解码器，物体解码器分为两个步骤：特征散射和采样以及 SDF 解码，获得 SDF 预测结果，最后使用 Marching Cubes算法获得物体网格。这里作者采用 ConvOccNet中的设计，将特征散射到点云中，然后将其送入 3D-UNet 中，使用 5 层 MLP 预测每个点的SDF。手部解码器使用mano，用PVN3D预测当前帧手关节位置Jh，然后采用逆运动学方法以手部形状 β 为模板找到手部姿势 θ，再经过可微分mano层重构手Mesh。
然后就是FO部分，把触觉信息整合到DF-Field中。FO目的是通过引入力信息来优化手部姿态，改善手与物体之间的接触状态。这一步以物体为中心，即假设物体固定在原点，而手围绕物体运动。这样做可以忽略重力势能，只优化手姿态即可。作者把手部划分为 22 个区域，每个区域对应的触觉传感器读数设为 Mj，然后对于每个区域计算该区域的平均力 Mj‾作为该区域的力输入。之后使用手部关键点与物体顶点建立对应关系，这里手部关键点分别为22个区域的中心点，用球查询方法，以手部关键点为中心，搜索半径为R的球体内的物体顶点，建立手部关键点与物体顶点之间的点对，计算点对之间的接触能量E。E由两部分组成，一个是相对势能Eij,物体顶点为Vio，手关键点为vjh，欧式距离为lij，得到相对势能，其中这个力参数 κ表示手与物体之间的相互作用力，计算公式是平均力读数Mj拔除以lij，然后屏障能量Bij计算如下，l拔是一个阈值距离，这个Bij主要是起到一个防止手和物体穿透的作用，当lij大于等于l拔时，就意味着手物体距离满足不穿透这个实际需求，那么Bij就等于零，如果穿透了就需要把手往外推，远离物体。总体的接触能量E就是所有点对势能和屏障能量barrier energy之和。
FO的目标就是通过最小化E来优化手部姿态θ，所以把优化目标函数设为θ*，其中Lr 是旋转约束，用于防止手部关节旋转到不合理的角度；Lo是姿态约束，用于确保优化后的手部姿态θ*接近初始预测的姿态θ。通过最小化接触能量和施加约束，FO 能够优化手部姿态，减少手与物体之间的穿透问题，并改善接触状态。这个模型特别是在处理变形物体时表现更为出色。

EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild

优化分三步，第一步相机系统对准，用重建后的物体坐标系作为全局参考，然后在这个物体坐标系下估计输入（初始）图像的相机参数，具体做法就是将最后修复分割得到的mask与真值的mask做损失，让损失最小化的相机参数为所求，完成一个对齐。第二步HOI接触对齐，就是仍然以物体坐标系为全局参考，物体被定位在系统原点，这样只需要优化手部位姿参数实现交互。这里分成两部分，一个是mask约束优化，和刚才物体一样，让hamer估计得到的手部mask与输入图像初始mask(Lisa分割)进行二维对齐，做一个损失约束,但是这是二维对齐，想实现更精确的三维对齐，于是作者继续基于ICP方法进行手物配准，分析手物接触关系。作者先从图像像素进行光线投射产生多个交点，对于物体，沿着每条光线选择最近和最远的交点。因为本身已经有三维手部参数，可以区分手背和手掌，射线于手背交点删除去掉，只保留手掌与射线的交点，那这两个点就是手物接触点，然后用迭代最邻近点ICP来计算最佳手部平移，对齐接触点并提供手势姿粗略估计。为了精细化手姿势，进行优化第三步，做了一个损失，这个是前面手的损失，然后是穿透损失，鼓励接触损失，正则化损失。其中穿透损失和我上周讲的那篇论文差不多，计算手物顶点距离平均值，做损失，如果有穿透就产生一个斥力作用，让手物远离；鼓励接触。

Reconstructing Hand-Held Objects in 3D from Images and Videos

MCC-HO部分先使用了先前已有MCC模型，是推断手和物体几何形状，其输入是单张RGB图像和三维手部几何图形（手的mesh），训练时使用手的真值，测试时使用hamer推断手的几何形状，物体几何图形的比例相对于输入的三维手部进行了归一化处理。MCC-HO 的编码器-解码器架构由transformer组成，输出手和物体几何形状的隐式表示。输入的图像和三维手部图像被传送到编码器，计算得到一个特征图，这些特征会被用于解码器的条件，解码器会将任何三维位置映射到占用概率、颜色和手部物体分割上。

编码器：为了将输入图像和手Mesh联合编码，（先将手mesh光栅化，手部每个像素的 3D 点被采样。对于图像中的每个像素 (i，j)，从摄像机光圈向像素中心投射一条射线，以确定与手部网格的第一个交点，即摄像机世界空间中的点 P0(i，j)。如果存在交点，则每个点的三维位置将从相交的摄像机世界空间三角形顶点（表示为 {vh,1、vh,2、vh,3}）进行双曲中心插值）。ERGB 和 EXY Z 与 MCC 中提出的transformer相同，不过作者对 P 的定义不同，即没有输入深度图像。图像变换器 ERGB 采用 Vision Transformer (ViT)架构。点变换器 EXY Z 采用基于自我注意的补丁嵌入设计self-attention-based patch embedding design，可区分可见和未知像素点。

解码器将编码器输出 R 和一组查询点 Q作为输入，传递到一个Transformer里，依然采用MCC结构，每个查询标记被传递到三个输出头，分别推断出二进制占位σ、RGB 颜色 c 和手部物体分割 m，然后做损失。由于大部分手物数据集比较小，作者考虑使用成熟大模型。给定视频的一个代表性帧后，作者提示 GPT-4(V)详细描述手所持的物体得到文字信息。这段文字说明将被传递给 Luma 公司的文字三维模型 Genie，以获取逼真的三维物体几何形状和外观。在检索到三维物体模型后，将其与输入的视觉数据和 MCC-HO 预测进行刚性对齐。MCC-HO 点云提供了物体姿态的合理估计，但仅凭这一信号可能无法获得与输入图像完全一致的姿态（尤其是对于具有对称性的几何体和野生物体）。所以作者额外使用 DINOv2特征来确定转换后的物体模型与输入图像之间的视觉相似性。使用输入图像的 DINOv2 特征构建 PCA 基础，并计算渲染特征 Fj 和输入图像特征 F0 的前三个 PCA 分量，计算两者的余弦相似度，选择误差最小的三维物体模型的旋转和平移，完成刚性对齐。以上工作是针对某一帧图像。如果输入的是视频流，就可以进一步利用时间平滑性这一额外线索--希望相邻帧的旋转和平移状态彼此接近。

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding

自动数据注释管道。输入数据包括分配中心视图的彩色帧、预先扫描的物体模型（mesh）以及附着在物体表面的标记的三维位置。首先分别定位三维手部关键点并获取物体姿势，然后进行接触感知优化以恢复 MANO手部网格。最后，从图像中分割出手和物体，并自动涂抹标记，以获得逼真的物体外观。注释：物体姿势；手部关键点（对于二维手部关键点的估算，如果发生严重遮挡或两只手相距甚远，直接应用现有的双手方法[19, 27, 37]可能会失败。因此，效仿文献[3, 41]，设计了一种使用预训练 YOLOv3 [54] 分别检测两只手的方法，然后利用 MMPose [9] 获得单手二维关键点。为了在严重遮挡的情况下将多视角 2D 关键点融合为 3D 关键点，我们使用 RANSAC [14] 过滤掉不精确的 2D 关键点，并通过三角测量定位 3D 关键点。）；MANO参数，手姿势、形状、手腕位置；手物二维mask；去除标记（RDB）。对合成动作识别、可通用的手部物体运动预测和合作抓握合成进行了基准测试。TACO 有三大局限性。首先，TACO 目前还没有涵盖铰接物体。其次，虽然 TACO 提供了对物体几何形状和 HOI 行为的广泛探索，但它缺乏场景多样性，而场景多样性对于理解人类操作也至关重要。第三，我们的标记移除解决方案是生成模型的应用，因此无法完美恢复物体的原始外观。

Explicit Contact for Implicit Reconstruction of Hand-Held Objects from Monocular Images

给定单张 RGB 图像 I，第一阶段首先预测手与物体之间的接触区域。在手部网格上用 [0; 1] 范围表示接触概率，来衡量该区域接触物体的可能性。接触概率是从粗到细进行预测，分为part-level接触和vertex-level接触，分别用 Cp和 Cv来表示接触概率，其中 Np 和 Nv 分别是手部区域和手部网格顶点的数量。根据手部区域的粗略划分，生成具有 Np 节点的部分级图 Gp。在构建图 Gp 时，MANO 模块各部分的中心点将作为一个图节点。通过使用 HRNet 主干网（2020 年）从I中提取长度为D的图像特征f，Gp 的每个部分级图节点特征为gpi。vert-level图 Gv 是根据 MANO中带有邻接矩阵的 Nv 个手mesh顶点生成的。除了图像特征外，Gv 的节点特征还包括前面粗估计的接触概率 Cp，从而得到节点特征 gvi。再说一下接触网络编码，因为接触区域通常会被遮挡，需要有网络去感知局部细节和全局信息。利用之前有的transformer变换器Graphormer，将图卷积纳入Transformer模块，让图卷积侧重于局部交互，而transformer则编码整个手部区域的全局关系。粗略和精细接触估计器的输入标记数分别为 Np 和 Nv，对于这两种接触估计器，输出标记的大小都设为 1，使用一个 sigmoid 函数将输出标记转换为 [0, 1] 范围内的接触概率，并提取概率大于 0.5 的接触点，这样就得到接触信息。第二阶段，给定与手部网格的显式接触预测 Cp 和 Cv，首先进行初始预测，输入RGB图像，使用IHOI一个现成模块，预测相机参数、手mesh和图片初始特征f0（视觉嵌入和关节嵌入），然后用相机参数将物体表面3D查询点采样转换到以手腕为原点的归一化坐标系中，作为后续结构化接触编码的输入。预测的接触状态 Cv 被用来构建结构化接触代码，作为中间接触特征，根据接触点的位置对估计的接触概率进行三线插值，同时使用位置编码（2022）将每个接触代码cvi映射到更高维度的空间。由于接触信息仅限于网格表面，无法覆盖物体所在的手部周围空间。三维空间中的顶点过于稀疏，无法提供足够的接触信息，而隐函数在三维重建中需要连续值，因此作者利用稀疏卷积（2018 年）将离散接触状态扩散到连续空间。得到最终的接触特征 f c，是由从不同分辨率的体积中提取的特征串联而成，然后在fc和初始特征f0之下，进行sdf，marching cubes得到mesh。

WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild

①问题：流行的手部检测和定位方法在检测多只手和具有挑战性的姿势方面有明显的失败，而最新的方法尽管产生了合理的结果，但在实时操作方面却举步维艰。由于缺乏精确的手部检测框架，作者提出了一种稳健的单态无锚检测器，它可以在每秒超过 100 帧（fps）的速度下运行。结果显示鲁棒检测可以执行更稳定的四维重建并克服抖动伪影，而抖动伪影是目前基于三维帧的姿势估计方法的主要局限之一。hamer简单而强大，架构规模庞大，但是从单张图像回归手部参数会导致对齐效果不佳和姿势不正确。

解码器首先会预测一个粗略的手部估计值，用于从细化模块中提取多尺度图像对齐特征。缺乏高保真手部检测系统的一个重要原因在于具有多种手部注释的野外数据集数量有限。为了建立一个稳健的手部检测框架，收集了一个大规模数据集，其中包含数百万个具有不同姿势、光照、遮挡和肤色的野外手部（WHIM）。设计了一个管道来自动注释 YouTube 视频，这些视频来自各种具有挑战性的野外场景。选择了 1,400 多段 YouTube 视频，其中包含手语、烹饪、日常活动、体育和游戏等手部活动，这些活动具有以自我和外部为中心的视角、运动模糊、不同的手部比例和互动。为了准确检测和注释每一帧画面上的手，使用了组合网络。首先，使用 VitPose和 AlphaPose检测帧中的所有人类，并选择置信度大于 0.65 的边界框。然后对边界框进行裁剪，并将其输入由 MediaPipe 、OpenPose 和 ContactHands模型组成的手部检测集合管道。为了定位手的位置，使用了加权平均法。除了边界框之外，还使用估计的二维地标来拟合三维参数手部模型 M。考虑到生物力学先验主要作用于关节空间，作者在 ARCTIC 数据集上训练了一个 PCA 模型作为三维先验，对可行手部姿势的分布进行建模。

给定一幅图像 I，目标是检测图像中 n 只手的边界框 B 以及它们的手边标签（左右手）。提取骨干网的后三个特征图，在颈部模块中生成多尺度特征金字塔。利用了路径聚合网络（PANet），使用三个检测头来预测不同锚点分辨率下的边界框 bj 和手边标签 yj。采用了无锚点设计（通常需要大量人工设计的锚框作为候选区域，而无锚点方法直接预测目标的位置或关键点，省去了锚框的设计和匹配过程），以增强定位方法的灵活性，并直接预测边界框坐标，而无需依赖预定义的锚点。给定包含人手的图像 Ih，并围绕手部检测器边界框进行严格裁剪。图像 Ih 首先被分割成 M 大小的斑块 P，然后嵌入到高维标记 Timg中。除了图像标记外，还通过三个不同的标记 Tpose、Tshape 和 Tcam 对手的姿势、形状和相机参数进行了明确建模。将连接后的标记输入 ViT transformers编码器，以获得一组更新的特征标记 T′ img、T′ pose、T′ shape 和 T′cam。同时得到MANO 模型的姿态 θ c 和形状 β c 参数和Kcam相机参数的粗略估计，作为细化网络的先验参数。之后对重塑的图像特征标记 T′ img，形成低分辨率特征图 F0，并使用估计的 kcam 相机参数将粗略手部估计 Ml 投影到特征图上。之后使用双线性插值法从 F0 中为每个投影顶点 v 采样一个特征向量 f0v将整个手部网格 Ml 投影到特征图上，即使用一组解卷积层将 F0 升采样为多个更高分辨率的特征图 F0、F1、......、Fn，这些特征图将作为细化模块的多尺度特征。这里是投影的3D网格，而不仅仅是手部关节，因为目标是获得更好的形状和姿势图像对齐。然后将图像对齐的顶点特征汇总形成一个全局特征向量，用于预测姿势和形状残差，完善粗略手部估计。从粗到细可以促进图像配准并获得更好的重建性能。

利用一个大规模的野外数据集，训练了一个轻量级但高精度的手部检测器模型，该模型能在不同遮挡和光照条件下以超过 130 FPS 的速度稳健地检测到手部。此外，我们还在新颖的细化模块基础上提出了高保真三维手部姿态估计模型，该模型克服了以往方法的局限性，缓解了以往方法的对齐问题。WiLoR 为多手检测、定位和三维重建提供了全面的解决方案。

HORT: Monocular Hand-held Objects Reconstruction with Transformers

①问题：基于隐式函数的方法往往会生成过于平滑的三维曲面，无法捕捉到精细的几何细节；且往往需要数小时才能利用复杂的目标函数优化姿态和形状，因此不适合实时应用；从学习到的隐式场中获取显式三维网格需要使用 Marching Cubes 算法进行另一个后处理步骤，这不仅降低了推理速度，还限制了下游任务的灵活性。HO 推理速度快，但重建分辨率有限。最先进的方法 D-SCO尽管性能强大，却比基于隐函数的方法更慢，由于测试时需要密集的去噪步骤，每次重建需要超过 13 秒。

在这项工作中，采用了与 D-SCO 类似的显式点云。不过与之有本质区别，采用基于transformers的架构，以从粗到精细的方式重构对象点云，在大幅提高推理速度的同时，实现了最先进的重构精度。分为四部分：图像编码器、手部编码器、稀疏点云解码器和密集点云解码器。给定一张单目图像作为输入，使用2025CVPR的手部姿态估计模型WiLoR来重建三维手部并预测摄像机参数 Kcam。为了有效地对三维手部进行编码，将 vh 转化为多个局部坐标系，包括所有手部关节、指尖和手掌，从而得到总共 22 个坐标系。通过 PointNet 架构对几何表示进行编码，以提取手部特征fh。采用 DINOv2从输入图像 I中提取图像特征fv。将重建任务分解为两个子任务：典型物体点云生成和手掌相关物体姿态估计。这种分解将物体形状恢复与姿势估计分离开来,物体姿态估计只预测物体相对于手掌的三维平移，表示为 to，稀疏物体点云pos，点数量为nps。解码器采用统一的transformers主干联合预测to和pos。定义了 1 +Nps个可学习的标记嵌入：一个标记用于平移预测，Nps个标记用于生成点云。应用自注意和交叉注意，以提取的图像特征 fv 和手部特征 fh 为条件。通过共享一个用于预测物体姿态和点云的转换器主干，解码器有效地利用了这两项任务之间的相互依赖关系，与之前单独训练物体姿态估计网络的工作相比，效率更高。密集点云解码器会进一步将其放大，以生成手持物体的高分辨率点云。首先对重建的点云pos进行双线性升采样，只是粗略近似，缺乏特征对齐和局部邻域信息。所以引入了额外的像素对齐特征提取，该方法可为重建的点云pos提供局部视觉信息。首先从 fv中剔除全局标记，只关注（局部）斑块级标记。然后，将这些剩余的标记重塑为空间网格格式，并通过 3 × 3 卷积层进行处理，得到一个细化的特征图。利用估计的手掌位置 tp 和手掌相对于物体的平移 to，将pos从物体规范空间转换到摄像机坐标空间。利用预测的摄像机参数 Kcam，将pos投影到图像平面上，并通过透视投影 π(-) 和双线性插值 F(-) 获取每个点的像素对齐特征。稀疏点云 pos中的坐标与其对齐的视觉特征 fo连接起来。也会检索三维手部顶点 vh 的视觉特征，并将其与物体特征一起输入transformers模型。该模型由三个区块组成，每个区块依次执行自我关注和特征上采样。每个区块的点云分辨率提高 2 倍。每个区块首先根据点的空间位置，使用 k 个最近邻域（kNN）确定邻域，然后在局部邻域内应用自我注意，以聚合每个物体点的空间和视觉手部物体上下文。之后对点特征进行双线性上采样，并通过三个卷积层来预测每个上采样点的三维偏移。这一过程最终会重建一个高分辨率的密集点云pod。

与 D-SCO单独训练每个组件不同，采用端到端训练策略来优化整个 HORT 模型。所有组件都使用整体损失函数 L 进行联合训练，该函数结合了物体姿态损失以及稀疏和密集点云生成损失。

THOR-Net: End-to-end Graformer-based Realistic Two Hands and Object Reconstruction with Self-supervision

①问题：基于关键点 RCNN，可从单目 RGB 图像中提取多个二维特征（即热图、边界框、特征图和二维姿态）。人们很少关注两只手与物体相互作用时的联合重建。这是一个具有挑战性的问题，因为手的形状、纹理、自由度（DOF）、手部的自相似性、两只手的自遮挡以及手与物体之间的相互遮挡都各不相同，尤其是单目 RGB 图像，因为它只包含二维信息。（许多研究人员使用图形卷积网络（GCNs）来应对姿势估计和形状重建的挑战。GCN 保留了手部姿势和形状的固有运动学和图形结构。这一特点使 GCN 能够处理深度模糊和遮挡问题，因为它能将手的可见部分与不可见部分关联起来。）

Mask RCNN 的作者创建了一个名为 Keypoint RCNN 的变体，用于估算 RoI 中任意一组二维关键点的位置热图。每个关键点都有一个该关键点位置的热图。通过边界框和热图，Keypoint RCNN 可以估算出图像中构成二维姿势的二维位置。能够估算出手和物体的二维姿势。因此，KeypointRCNN 可以提供 RGB 图像中的重要信息，如手和物体的边界框、边界框内关键点的热图以及 RoI 特征。（要训练关键点 RCNN，需要边界框注释。为了得到边界框使用3Dpose的二维投影。二维姿势的最小 x 值和 y 值以及最大 x 值和 y 值被视为边界框。）keypoint RCNN 能够定位原始图像中的物体，因此无需对图像进行裁剪等预处理。输入RGB图片I，送入特征提取器keypoint RCNN中，（骨干网由 ResNet50和特征金字塔网络 (FPN)组成）生成RGB多尺度特征，骨干网将多尺度特征传递到多尺度 RoI 对齐层后，生成特定于 RoI 的特征。RCNN 会将特征传递给一个 2 层 MLP，该 MLP 会为每个 RoI 生成一个经过压缩的 2048 特征向量。这些特征向量将附加到热图中，为后面的形状生成器生成所需的图形表示。接下来就将keypoint RCNN 提取的二维信息转换到三维空间，GraFormer是一种图神经网络，主要利用图卷积层和注意力层的优势。GraFormer 包括一个 GraAttention 层，有 4 个头的多头自注意层。GraAttention 的最后一层是 LAMGConv 层，这是一个具有可训练邻接矩阵的图卷积层。GraAttention 之后是两层特殊类型的图卷积层，为ChebGConv，构成主要构建组件。 GraAttention 和 ChebGConv 的这一组件重复五次，形成了 GraFormer。那么这个Graformer用途是将keypointRCNN 的热图转换为手部和物体的 3D 姿态坐标。这里之所以使用热图是因为会比使用二维像素位置来表示图中的每个节点更精确。接下来就是生成三维形状，作者提出了一种从粗到细的 GraFormer，从二维姿态图开始逐渐增加顶点数量，最后生成三维形状。该网络由三个阶段组成，每个阶段由一个 GraFormer 层和一个增加图中节点数量的非汇集层组成。粗到细 GraFormer 的输入图由 29 个节点组成。每个节点 i 都保存有附着的特征向量 F2048 和相应大小为 56 × 56 的热图 Hi。
在对热图进行扁平化处理并添加 F2048 后，输入到粗到细网络。粗到细网络中的中间图层需要简化版本的邻接矩阵。为了将手部网格建模为图形，我们使用 MANO面来创建邻接矩阵。使用了四边形边缘折叠细分算法（QECD），对默认的 MANO 手部网格进行缩样。简化后的网格面创建了中间图的邻接矩阵。使用了 PyTorch3d中的一种可训练方法，将一个拓扑恒定的球体变形为每个物体。这一步骤的目的是根据模型的复杂程度和所需的重建质量，控制表示物体形状的顶点数量。为了了解球体中每个顶点到目标物体网格的位移，变形算法会最小化变形球体和目标网格之间的倒角距离 Lchamfer，然后和其他三个正则化损失一起总和，做损失。最后提出一种直接纹理回归方法，基于使用光度损失进行自我监督的纹理重建方法对纹理进行估计。

BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting

①问题：许多现有的 HOI 重建方法都依赖于预先扫描的模板来进行重建。为了解决这个问题，提出了 HOLD，利用SDF实现了分类无关的三维重建。但是作为一种基于神经辐射场（NeRF）的方法，HOLD需要大量时间进行拟合和渲染。Pokhariya 等人提出了一种名为 MANUS 的方法，该方法采用三维高斯拼接（3DGS）进行手部物体交互重建。作为基于 3DGS 的方法，MANUS 的拟合和渲染速度比基于 NeRF 的方法快得多。但是它不能应用于只提供单目视频的情况，因为它需要特定场景的多目图像。大多数分类识别方法的应用场景仅限于只有一只手与物体互动的情况。当涉及到两只手时，两只手和一个物体的遮挡模式就会变得非常明显，由于严重的遮挡，无法正确重建手-物体像素。因此，需要开发一种专门的方案来明确重建这类缺失的像素。

预处理过程输入视频 V有 T 帧，首先提取第 t 帧的手部meshMHt 和物体mesh MOt。得到的手部mesh的顶点和物体mesh的顶点将用作 BIGS 中的初始高斯位置。为了获得手部mesh，首先使用hamer来估计左右手的 MANO 姿态参数 θ Lt ,θRt和形状参数 β，其中形状参数 β 是所有帧共享的，因为是同一个人的手，所以将其固定为第一帧的右侧形状参数。同时用Hamer求得旋转平移参数。对于物体mesh，采用SFM方法，从第 t 帧获取物体的点云及其旋转和平移参数。然后，后续是按照HOLD的方法得到对齐的手部物体mesh。手部高斯是在规范空间（世界坐标系）中构建的。通过插值第 i 个高斯 µi 的中心，从手部 TriplaneNet TH中提取特征 t。然后，将特征 t输入到三个MLP中估计第i个高斯的参数：手部外观 MLPfAH预测颜色 ci 和不透明度 oi；手部几何 MLPfGH预测中心位置偏移 ∆µi、旋转 qi和缩放 si；手部变形 MLP fDH预测 LBS 权重 Wi( K 表示手部关节的数量)。通过MANO的LBS可以将第 i 个手部高斯中心在规范空间 µ c i 中的位置转换为摆放posed位置 µ p i。通过翻转 x 轴上的三维高斯中心，可以将同一个高斯映射到左右手。因此为右手定义了一个单独的三维高斯 GH，并在两只手上共享。然后再从Posed空间转换为图像坐标系GHp。物体三D高斯也是在规范空间中构建的。从物体 TriplaneNet TO中提取特征，并将其输入两个 MLP（即 f AO、f GO）以推断物体高斯参数：物体外观 MLPfAO预测颜色 ci 和不透明度 oi；物体几何 MLPfGO 预测中心位置偏移 ∆µi 旋转 qi、比例 si。将旋转和平移参数应用于规范空间中的物体高斯，就得到了图像坐标空间中的物体高斯。对手和物体进行渲染。接着进行优化，由两部分组成，单个主体优化和交互主体优化。单个主体优化步骤中，通过检查手部高斯和物体高斯的二维投影图像与原始输入图像的一致性，分别对手部高斯和物体高斯进行优化。将第 t 帧的可学习参数定义为Pt。然后进行损失优化，总损失设置如下。图像一致损失LImage主要用SAM2获得手物掩码，将其与渲染图像、原始图像相乘，然后做损失。然后是对手部损失，主要对姿势参数和平移参数进行损失，LBS进行正则化。最后是物体损失，作者希望补全物体被遮挡部分，所以采用了扩散模型。作者先创建一个随机虚拟相机c，相机沿着物体高斯附近的虚拟球体移动。然后将物体高斯投影到随机相机c 中，得到渲染的前景物体图像 I c。然后作者根据24年CVPR上一篇文章模型，在扩散网络上进行文本反演，得到最能描述物体的文本提示 y。y表示形式如下，token是可学习的嵌入向量，object是重建对象名称，然后得到补全的去噪二维物体新视图。之后做SDS损失。然后做交互主体优化，为了让手和物体的高斯更加一致，提出了一个接触正则化项 Lt contact，鼓励手与物体高斯在优化过程中保持良好的接触。最后得到重建结果。

Transformer-based Unified Recognition of Two Hands Manipulating Objects

①问题：大多数方法都将重点放在单独的问题上，要么是姿势估计，要么是交互识别。此外，大多数方法都是根据已经裁剪好的手和物体的狭小边界框来开发姿势估计方法的，这并不符合实际情况。无需手/物体检测器或任何额外的后处理，它就能预测每帧的姿势。此外，我们还利用手与物体网格之间的接触图，通过逆运动学从手的姿势中恢复手的网格。

给定视频 V，输出：手的姿势H，物体的姿势 O，物体类型C的概率，以及交互类别A的概率。H2OTR分为两个子模块：手-物姿势估计网络 fHOP 从视频 V 的每一帧中估计手的姿势 H、物的姿势 O 和物的类型 C；手-物交互识别网络 f IA以估计的手的姿势 H、物的姿势 O 和物的类型 C 作为输入，对整个视频 V 进行交互识别得到A。物体姿态向量 o 被定义为 21 × 3 维数组，由 8 个角的 xyz 坐标、12 个边缘中点和紧紧围绕物体的三维边界框的中心点组成。物体类型的定义基于 "芯片"、"书本 "等前景物体的类别以及 "背景 "类别，还包括 "左手 "和 "右手 "两个类别。

首先输入整个视频V 中包含的每个帧 X，采用 ImageNet 预训练的 ResNet50backbone来提取多尺度图像特征S，并将其输入transformer架构的编码器、解码器和预测头。每个特征图设为si，si'是一个平移向量，Pi是二维位置嵌入编码，Li是水平嵌入，可学习参数。因为多尺度的计算成本更高；所以作者在编码器层中使用了可变形注意力操作。整个编码器由 6 个编码器层堆叠而成，每个编码器层由一个 8 个头的多头可变形自注意层和一个前馈网络组成。给定输入特征 s，编码器提取更新特征 s ′′。然后是解码器，输入为物体查询 z ，是随机初始化的可学习参数。解码器更新物体查询，以估计每个实例的姿态。物体查询从编码器输出特征图 s ′′ 中提取特征，用于可变形交叉关注。解码器也是由 6 个解码器层堆叠而成，每个解码器层包括一个自注意层、一个有 8 个头的多头可变形交叉注意层和一个前馈网络，得到更新的查询z'，送到预测头预测手姿势h物体姿势o和物体类型概率c，预测出的手和物体的姿势位于 UVD 空间中，之后再利用相机固有参数将其转换到相机空间中。
然后下一阶段是手物交互类别识别，输入为fHOP的输出，然后结合接触图 m 信息作为输入。生成手和物体顶点 V = {VLeft , VRight , VO}，然后生成接触图 m = {mLeft , mRight , mO}。然后，通过由具有自我注意机制的编码器层和前馈网络组成的transformer，将它们映射到手部与物体的交互类中。作者将接触图可视化，它能够明确表示两只手和一个物体接触的部分。（即使手和物体的姿势相似，这也是识别它们之间互动的更有效线索。）根据MANO生成的左手和右手网格的顶点分别记为 VLeft 和 VRight。此外，从物体网格真值中抽样 2,000 个顶点索引，生成抽样物体顶点 VO。使用预测的 6D 姿态将它们从物体空间转换到相机空间。最后，使用21年CVPR一个模型中提出的基于距离的编码来生成接触图 m。使用可学习的动作标记a和每个时间t的向量vt作为transformer的输入，其中a是通过自我关注汇总所有帧信息后提炼出来的。最后一层的动作标记通过 MLP 预测交互类别，通过捕捉手与物体之间的交互随时间的变化来识别交互类别。

HOIGPT: Learning Long-Sequence Hand-Object Interaction with Language Models

针对的问题：1) 调节的灵活性有限：文本提示通常是唯一的引导生成方法。这限制了它们根据运动完成、预测或混合的需要对运动进行调节的能力；2）仅限于短序列：扩散模型难以生成包含多个动作的连贯、较长的运动序列，部分原因是在利用先验知识和执行时间一致性方面存在挑战。3）只关注文本到三维 HOI 的生成，缺乏总结动作的能力，这限制了它们在其他任务中的适用性，没有反向。
通过新颖的 HOI 标记器将 HOI 运动序列映射到 LLM 的标记域，并使用编码本将手部运动与物体运动进行因式分解。通过学习对 HOI 运动进行编码和解码的 VQ-VAE 来为这些 HOI 编码本编制索引。在 VQ-VAE 的训练过程中施加了几个几何正则，以确保物理上的合理性。在 VQ-VAE 的训练过程中施加了几个几何正则，以确保物理上的合理性，并对 LLM 进行预训练和指导调整，使其学会解释标记化的 HOI 运动。输入输出：以 6 自由度（6DoF）的物体姿势和基于 MANO 手部模型的手部姿势来表示手部与物体的三维联合运动，物体姿势定义为如式子所示，αo 表示物体铰接角，τo 表示全局 3D 物体位置，jo 是 6D 物体旋转。手部姿势表示为 H = (τ , ϕ)，其中 τ 是全局三维手部位置，而 ϕ 指的是 6D 手部旋转。文本是 LLM 的原生输入/输出格式，使用了标准的文本标记化流程。几何信息如点云也可以作为输入提供。输入序列（左）包括文本和 HOI 序列，分别由文本标记器和 HOI 编码器处理。HOI 编码器使用 HOI 标记器将 HOI 序列分解为物体、左手和右手标记。语言模型采用文本和 HOI 标记生成输出序列，其中包括文本描述和生成的 HOI 序列。这种设计可实现文本和 HOI 数据的无缝集成，以完成运动预测、描述和完成等任务。 HOI 分解 VQ-VAE 概述。通过专用的手部和物体编码器处理手部和物体特征，并生成编码表示。这些表示使用单独的手部和物体编码本进行量化，从而为每种模态生成相应的编码本指数。量化后的指数组合成 HOI 潜在代码，然后通过物体和手部解码器进行解码，重建 HOI 序列。重构后的序列能捕捉到真实的手与物体之间的互动，与输入特征非常吻合。为了进一步提高物理可信度，还应用了几何损失，最大限度地减少手与物体之间的相互渗透，确保一致、可信的接触动态。