FrankMocap Fast monocular 3D Hand and Body Motion Capture by Regression and Intergretion

FrankMocap是一种快速的单目3D手部和身体动作捕捉系统,结合了回归和整合技术,能够在自然环境中同时捕获3D身体和手部姿态,达到9.5fps的速度。它使用两个回归模块预测身体和手部姿态,再通过整合模块生成全身3D姿态。实验表明,该系统在手部和身体姿态估计方面表现优秀。
摘要由CSDN通过智能技术生成

paper title: FrankMocap:Fast monocular 3D Hand and Body Motion Capture by Regression and Intergretion
paper link:https://arxiv.org/abs/2008.08324
oral or demo video:https://www.youtube.com/watch?v=HXTK5ro9kGc
project: -
github: https://github.com/facebookresearch/frankmocap
conf & anthor: arXiv, Yu Rong(CUHK & FAIR) et al;
arXiv submit v1:2020.08

主要内容

当前的单目姿态估计方法要么是仅关注身体动作,忽略了手部的动作;要么是仅关注手部的姿态而不考虑身体的姿态。这篇文章提出一个可以在自然环境中同时捕捉身体和手部的3D姿态的系统,称为frankmocap,速度较快,可以达到9.5fps。(在Ubuntu18.04,RTX2080Ti上实测单人bodyMocap约6fps)。

方法流程

FrankMocap使用两个回归模块从单张RGB图像中分别预测身体和手部的姿态,然后得到的结果有一个整合模块生成全身的3D姿态结果。如下图所示:
overview frankmocap
1. SMPL-X
SMPL-X模型是SMPL模型的一个扩展,可以通过低维度的pose和shape的组合,得到人体的形状变化和姿态相关的变形表示。相比于SMPL,SMPL-X除了身体之外,还可以通过增加额外的参数,实现手指和表情的表示。
如果SMPL-X的模型为 S S S,那么输入姿态相关的参数,可以得到变形的结果:
M w = S ( ϕ w , θ w , β w ) M_{w} = S(\phi_{w},\theta_{w},\beta_{w}) Mw=S(ϕw,θw,βw)
其中:

  • ϕ w ∈ R 3 \phi_{w} \in R^{3} ϕwR3为全身的朝向参数;
  • θ w ∈ R ( 21 + 15 + 15 ) X 3 \theta_{w} \in R^{(21+15+15)X3} θwR(21+15+15)X3是身体和左右手的pose-dependent变形,21为身体的关节数目,15是一只手的关节数目;
  • β w \beta_{w} βw是shape参数;
  • M w ∈ R 10475 X 3 M_{w} \in R^{10475X3} MwR10475X3是SMPL-X得到的变形后的顶点信息;
    得到 M w M_{w} Mw后,可以通过关节点位置回归函数 R R R得到3D关节点位置:
    J w 3 D = R w ( M w ) J^{3D}_{w} = R_{w}(M_{w}) Jw3D=Rw(Mw)
    其中 J w 3 D ∈ R ( 22 + 15 + 15 ) X 3
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: "Dimension Embeddings for Monocular 3D Object Detection" 可以翻译成“单目三维物体检测的维度嵌入”。该研究的主要目的是通过在二维图像中检测物体并使用维度嵌入来估计物体的三维边界框。在这种方法中,模型使用神经网络从单个图像中提取特征,并使用这些特征来生成每个物体的维度嵌入。这些嵌入包含物体的大小、形状和方向等信息,可以用来计算物体的三维位置和姿态。这项研究的成果可以应用于自动驾驶、机器人技术等领域。 ### 回答2: “Dimension Embeddings for Monocular 3D Object Detection”是一篇关于使用单目相机进行三维物体检测的维度嵌入技术的研究论文。在传统的三维物体检测中,常需要使用多个相机或深度传感器来获取三维信息,而这篇论文提出了一种使用单目相机进行三维物体检测的新方法。 该方法的关键思想是通过嵌入物体的尺寸信息来学习和预测物体的三维位置和姿态。具体来说,研究人员将物体的尺寸信息编码为维度嵌入向量,并通过深度学习网络对这些嵌入向量进行训练和学习。通过将这些嵌入向量与图像上的物体边界框关联起来,可以准确地估计物体的位置和姿态。 为了验证该方法的有效性,研究人员对公开数据集进行了实验。实验结果表明,与传统的基于深度传感器的方法相比,该方法能够以较高的准确性进行三维物体检测,而且仅使用单目相机进行图像采集,无需复杂的设备。 总的来说,“Dimension Embeddings for Monocular 3D Object Detection”提出了一种新颖的方法,利用维度嵌入技术实现了使用单目相机进行三维物体检测。这一方法具有较高的准确性和较低的成本,可以在许多实际应用中发挥重要作用,例如自动驾驶、机器人导航等。该方法的研究为单目相机三维物体检测领域的发展提供了有价值的思路和参考。 ### 回答3: 《单目三维物体检测的尺度嵌入》是一个关于通过嵌入尺度来实现单目三维物体检测的研究。在传统的物体检测中,通常需要使用多目相机或激光雷达等传感器来获取物体的三维信息。然而,这些传感器通常成本较高且不易于集成到普通的移动设备中。因此,该研究提出了一种利用尺度嵌入来实现单目三维物体检测的方法。 这种方法基于观察到,在自然场景中,物体的尺度常常与其距离成正比。因此,通过学习从二维图像到三维空间的尺度转换关系,可以间接地得到物体的三维信息。具体而言,该方法通过神经网络将输入的二维图像转换为对应的尺度嵌入表示。这个尺度嵌入表示可以被解码为物体的三维坐标和尺度信息。 在实验中,研究团队使用了大量的单目图像数据集进行训练和测试。他们通过与基准方法进行对比发现,使用尺度嵌入的方法能够在保持较高三维定位准确性的同时,降低了计算和成本要求。此外,他们还表明该方法对于不同种类的物体都具有良好的泛化性能。 总之,《单目三维物体检测的尺度嵌入》提出了一种创新的方法,通过学习并应用尺度嵌入来实现单目三维物体检测。这种方法相较于传统的多目相机或激光雷达等传感器,更具有成本效益和实用性,对于普通的移动设备具有很大的应用潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值