每周文献(手和物体三维姿态估计)

每周文献汇报的备忘录,对照PPT的讲稿,个人理解,不一定正确,且部分语言混乱,仅供参考。针对疑点,恳请大家多多指教。

AtlasNet: A Papier-Mach ˆ e Approach to Learning 3D Surface Generation

       在此之前,常用的方法都是把输入的latent  shape representation(也就是潜在特征向量)直接经过MLP处理后得到3D点云,而这个方法将latent vector和自行sample的2D正方形结合起来了。atlasnet的优点之一就是灵活性,它的输入可以是3D点云也可以是2D图像,将输入经过encoder编码器,如果是3D点云就使用pointnet,2D图像就用Resnet-18,将这些高维数据压缩成潜在的特征向量latent vector,然后就经过MLP这里是decoder解码器。这里使用多个2D正方形,正方形上进行了均匀采样,然后把正方形投影映射到三维空间上,正方形和潜在特征向量结合形成参数化曲面,多个参数化曲面拼接在一起生成物体形状(相当于往物体上覆盖小曲面。因为是曲面,所以它是连续的,得到的重建表面也更符合逻辑,可以更好的得到局部几何特征)正方形结合潜在向量特征得到曲面上的一个点,多个做并集得到三维点云。最后利用PSR泊松分布表面重建得到mesh。

AlignSDF: Pose-Aligned Signed Distance Fields for Hand-Object Reconstruction

       这篇论文主要就是将参数化模型和SDF结合起来,参数化模型可以从先验中获益但易形变且分辨率有限,SDF可以表示任意细节但没有先验,AlignSDF先从参数化模型中获得手和物体的姿势,再用它们来对齐3D空间中的SDF,就是使用SDF在姿势标准化的坐标框架中学习手和物体的形状,该框架是根据手腕的旋转和平移进行归一化的。其实就是相当于把姿势和形状这两个任务分开完成,姿态归一化简化了SDF学习的任务,让它可以专注于估计形状,不用考虑全局旋转和平移变换。
      然后看一下具体的pipeline,输入RGB图像,然后经过ResNet18提取特征,然后反馈到手部encoder编码网络,进行形状βh和姿势斯塔p的回归预测,然后MANO作为可微层集成到模型里,预测得到手的顶点vh,关节jh和姿势斯塔h。
       这个模型设置的坐标系原点是MANO的手腕关节点。然后进行物体姿态估计,需要预测物体的旋转平移,因为旋转预测比较困难,所以这篇论文只进行了物体相对于手腕的平移预测。这里用了体积热图heatmaps预测物体质心的每体素似然,然后用soft argmax算子从热图中提取3D坐标,再利用了相机固有特性和手腕位置将3D坐标转换为手腕相对坐标系,就可以得到物体相对于手腕的平移to。
       通过前面的MANO模型,可以得到旋转参数斯塔hr和旋转中心th,这个旋转中心取决于之前得到的形状参数βh,然后利用这些参数把3D查询点x变换为正则手位姿(规范手姿),就是放到规范化的坐标系中。然后吧x和xhc连接起来送到SDFdecoder中,其中I为图像特征,得到符号距离。
同理把物体转换为规范物体位姿,再送到SDF中预测形状。
       最后再用Marching Cubes算法在测试时重建网格。

gSDF: Geometry-Driven Signed Distance Functions for 3D Hand-Object Reconstruction

       gSDF这篇论文算是在alignSDF上做的一个改进,它的主要两个创新点是:xxx 。整个模型大致的流程是:xxx
       接下来说一下具体pipeline:输入图像It,整个模型前半部分要做的是提取得到两种类型特征,运动特征和视觉特征,其中视觉特征部分应用了几何变换来提取对齐的局部视觉特征。先看运动特征,首先训练一个三维手部关节预测模型,生成21个手部关节的热力图,使用soft-argmax算子从热图中提取手关节的三维坐标。然后利用逆运动学从估计的3D关节ψh中得到手部姿态,斯塔h和faih表示第ith个关节相对于其祖先关节的旋转和平移的相对姿态。这篇论文只计算了旋转,没有计算位移,使用MANO中定义的模板位姿计算手腕的位姿,然后按照手部运动链递归求解其他手指关节的位姿,这一步具体用公式来看:A(i)表示第i个关节的有序祖先集合,然后利用exp将旋转参数转换成旋转矩阵,遍历手部运动链,得到第i个关节的全局变换Gh,然后,取ghi的逆乘上x的齐次坐标将x变换成第i个手关节正则坐标。然后就得到了手的运动特征。然后对于物体姿态估计,由于许多物体具有高度对称性,并且经常被手遮挡,通常难以准确估计物体的旋转。所以和alignSDF一样只估计物体ψo的平移,没有估计旋转。因为抓取手的姿势也提供了关于物体形状的提示,所以这里加入了手的位姿特征信息。所以物体的运动特征主要包括:xxx。然后就是视觉特征部分。vrt是由SDF特征编码器生成的特征映射,本文用的是resnet。本文为了提高单帧视觉特征在遮挡或运动模糊中的鲁棒性,利用了视频中的时间信息,就是把视频中该帧图像相邻的几帧图像的特征映射平面化为一个序列,经过一个transformer重塑变成该帧的特征映射。再用相机投影矩阵把x投影到平面上,然后用来双线性采样从特征映射对应位置上得到局部特征ev。最后再把加入了特征的查询点和特征信息进行SDF得到预测建模。

HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed Distance Fields

       首先看一下第一部分全局SDF学习模块。这一部分主要是提取手和物体的全局信息。使用标准的编码器-解码器架构U-Net提取得到图像层次特征F,然后对2D的(热力图、手物分割掩码)进行预测回归,然后这里它直接在原始空间中学习sdf,而没有使用位姿预测旋转到规范空间。所以说这个SDF模块将专注于手和物体的全局信息(例如,一般形状,位置和全局旋转)。
       这一部分具体来说就是给定一个3D查询点p将它投影到二维图像中,同时用UNet提取图像特征与查询点的二维投影结合,然后将查询的图像特征连接起来,送到多层MLP中获得特征向量,就是这个公式,派3D到2D表示投影和插值运算,F表示UNet解码器提取的图像特征,X表示对UNet分层特征的集合,加号表示对所有分层像素对齐图像特征进行拼接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值