论文地址: https://arxiv.org/abs/1902.03451
1.导论
1.1本文亮点
在我看来,本文的亮点在于作者运用了一个reprojection,它可以得到弱透视模型下的相机参数,使生成的MANO手掌模型可以投影至2D图像,并获得2D hand pose。如此便可以使用含有大量2D hand pose的数据集进行训练,以解决3D Hand-Object Pose数据集不足的问题。
2.方法
此方法较为简单,输入是图像以及基于图像由CNN得到的2D joint heat map;通过encoder得到MANO模型的hand pose and shape参数{β,θ} ,以及camera参数{R,t,s} ;3D Hand pose可直接从MANO提取,为J,约为21个;而MANO还会生成一堆关键点M,约为778个;而2D映射如下得来:
训练过程的损失函数为:
其中比较有意思的是Lmask ,公式如下所示:
在reprojection的2D图像中,若预测的点在Hand mask内则H()=0,否则为1.而Hand mask是由GrabCut算法得到的,这里不详细介绍,Hand mask如下图所示:
3.评估
3.1效果图
3.2定量评估