文章地址:[2003.03972] Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS (arxiv.org)
1.文章简介
本文提出了一种从多个校准的相机视图中进行多人3D姿态估计的新解决方案。它以不同相机坐标下的2D姿势作为输入,并以全局坐标下的精确3D姿势为目标。与以前在每帧从零开始在所有视图对中关联2D姿势的方法不同,利用视频中的时间一致性,直接在3-空间中将2D输入与3D姿势匹配。
2.文章框架
a.输入
将检测到的2D关节作为输入,与别的方法不同,每个相机独立地流式传输帧,帧按时间顺序收集,并逐个迭代地输入到框架中,也就是相机不是严格同步的。
b.具有几何亲和性的交叉视图跟踪
文章中将不仅在视图上而且在时间之间进行交叉匹配
将场景中的人物的历史状态保留为跟踪目标,问题是将这些目标与新检测的人体联系起来,迭代的检测来自不同的相机。假设存在M个检测,则需要将这些检测与最后N个跟踪目标相关联,并且随后基于匹配结果更新目标的3D位置,则问题变成了一个二分图匹配问题,图由亲和矩阵组成,则可以使用匈牙利算法解决问题。
亲和的测量
初始化使用epipolar constraint方法,以下是交叉匹配算法
c.增量三维姿态重建
由于2D姿态是来自于不同时间的,所以要进行新的算法,即增量三维姿态重建,这里的方法是根据t时间的2D姿态来估计3D姿态,其他来自别的时间的2D姿态。
3.实验数据
4.可视化