【Abstract】
我们提出了一种从单个RGBD图像估计真实世界坐标系中的三维人体姿态的方法,并表明它超过了从RGB和仅从depth估计姿态的单目三维姿态估计方法的性能。我们的方法建立在强大的彩色图像人类关键点检测器的基础上,并将深度提升到3D。我们结合系统与我们的学习演示的框架,指导一个服务机器人,而不需要标记。在现实世界中进行的实验表明,我们的方法使PR2机器人能够模仿从人类教师那里观察到的操作动作。
(从摘要上看,本文的方法似乎是从RGB图像中获得2D关键点,再从成对的深度图中获取对应关键点的深度信息从而得到最终的3d关键点坐标,到底本文的方法是不是我们所猜想到的那样,我们看一看具体的网络结构)
【Introduction】
因为本文是一个应用型文章,主要用于解决服务机器人的问题,对我的研究不太相关,故这里就不详细展开。
【Method】
首先,对RGB图像中的关键点位置进行预测。预测的得分地图沿着z维平铺,从深度地图计算以人为中心的体素网格。基于这些输入,VoxelPoseNet预测3D中的关键点。手周围裁剪的图像被送入HandNormalNet,该网站可以预测出法线。红色和绿色块代表卷积和反卷积操作。连接用⊗表示,⊕是elementwise的添加操作。
在这项工作中,目的是获取3D人体姿态以及手部的方向量。