V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation from a Single Depth Map
2018--CVPR 作者:JY Chang,G Moon,KM Lee
Fig.1 V2V-PoseNet. Each feature map without Z-axis and combined the 3D heatmaps of all keypoints in a single volume. Each color in the 3D heatmap indicates keypoints in the same finger.
图1显示了提出的V2V-PoseNet的总体架构。V2V-PoseNet接受体素化的输入,并通过编码器和解码器估算每个关键点的每个体素的可能性。为了简化该图,绘制了没有Z轴的每个特征图,并将所有关键点的3D热图合并到一个立方体中。3D热图中的每种颜色都表示同一根手指上的关键点。
该模型的目标是估计所有关键点的3D坐标。
首先,通过重新投影3D空间中的点并离散化连续空间,将2D深度图像转换为3D形式。然后对2D深度图像进行体素化后,V2V模型将3D体素化数据作为输入,并估计每个关键点的每个体素可能性。最后识别每个关键点的最高似然响应的位置,计算真实世界的坐标,即模型的最终结果。
该模型的主要贡献包括:
1.首先将从单个深度图估计3D姿势的问题转换为体素到体素的预测。与直接从2D深度图像中回归3D坐标的方法不同,本文提出的V2V-PoseNet从体素化的网格输入中估计每个体素的可能性。
2.通过比较每种输入类型(即2D深度图和体素化网格)和输出类型(即3D坐标和每个体素的似然性)的性能,从经验上验证体素输入和输出表示的有用性。
3.使用几乎所有现有的3D姿势估计数据集(包括三个3D手和一个3D人体姿势估计数据集)进行了广泛的实验。结果表明,所提出的方法比以前的方法产生的结果要准确得多。
1. Refining target object localization
Fig.2 Reference point refining network. This network takes cropped depth image and outputs the 3D offset from the current reference point to the center of ground-truth joint locations.
细化目标对象定位。要定位关键点,例如手或人体关节,先决条件是要在3D空间中容纳手或人体的立方体盒。此立方盒通常放置在参考点周围,该参考点是使用真实的关节位置或在手部区域进行简单的深度阈值处理后获得的质心获得的。但是,在实际应用中,利用真实位置是不可行的。而且,由于杂乱场景中的质心计算中的误差,使用通过简单深度阈值计算的质心不能保证对象正确包含在获取的立方框中。如果其他对象在目标对象附近,简单的深度阈值方法无法正确过滤其他对象,因为它对所有输入数据都应用了相同的阈值。因此,计算出的质心不正确,会导致立方体框仅包含部分目标对象。为了克服这些限制,作者参考文献[29](Deep prior++,2015)训练了一个简单的2D CNN获得如图2所示的准确参考点。该网络获取深度图像,其参考点由手部区域周围的简单深度阈值计算得出,并输出从计算出的参考点到真实关节位置中心的3D偏移量。可以通过将网络的输出偏移值与计算出的参考点相加来获得精确的参考点。
2. Generating input of the proposed system