1.文章简要
本文提出了一种基于多视图几何的三维人群人体姿态估计方法,主要对象为拥挤人群。方法由两个关键组成部分组成:用于快速交叉视图匹配的图模型和用于重建三维人体姿态的最大后验(MAP)估计器。
2.文章结构
a. 2D姿态检测,本文利用最近提出的在群组姿势数据集上训练的群组姿势网络对输入图像进行2D姿势检测,由于通常用来表示脚的“脚踝”关节的检测尤其嘈杂,其将网络损失函数进行了修改为身体关节和脚关节的均方误差,网络在Human Foot Keypoint Dataset上训练
b.通过人的脚来对多视图中的人进行匹配,其使用事实人至少有一只脚是落在地面上的。对最优脚部的分配是难处理的由于组合搜索空间大,为了提高搜索效率,从视图构建一个完整的二分图,将其变成线性分配问题来解决
最优跨视角匹配
然后使用Jonker-Volgenant算法求解
c.3D群组姿势重建
由于三角测量在遮挡场景下,2D关节是有噪声的,并且可能有像素的偏移,因此,这破坏了多视角视图之间的关系,导致重建点不可靠,所起其制定了MAP优化
其用 vanilla triangulation来迭代MAP优化
3.实验数据
4.可视化