Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS
题目:《过100 FPS的多人3D姿势估计的跨视图跟踪》
作者:Long Chen Haizhou Ai Rui Chen Zijie Zhuang Shuang Liu
Department of Computer Science and Technology, Tsinghua University AiFi Inc
来源:CVPR 2020
研究方向:多视角-多人姿态识别
已有研究困境:
因单目多人3D姿态估计中姿态和部分遮挡的差异,引入多目3D姿态估计;
👇
在多视图方法中,现有方法多为一个人的2D关节匹配并跨视图进行关联,最终多视图重建法确定每个关节的3D位置,而产生问题①检测到的2D关节嘈杂且不准确②多人拥挤场景交叉视图关联不明确③随着人员和相机数量增加,计算复杂性增加
👇
为解决交叉视图关联问题,提出3DPF[81] ,但其计算成本昂贵;
👇
利用视频中的时间一致性将每个视图的2D姿势与3D姿势直接匹配到3维空间,交叉视图多人跟踪会保留并迭代更新
改进:与以前的方法的不同之处在于它们处理来自不同相机的帧的方式。与以批处理方式一次获取所有摄像机视图相反,这里我们假设每个摄像机都独立地传输帧,其中按时间顺序收集帧并将其逐一迭代地输入到框(不用严格同步)
研究方法(思路): 输入:2D关节点
第一步:在场景中人员历史状态保留为跟踪目标N,来自不同摄像机的新检测目标M,使用亲和力矩阵=2D亲和力[82] +3D亲和力[83] ,之后利用亲和力矩阵确定图后,使用匈牙利算法对加权二部图匹配。解决二部图匹配中关联问题,将关联结果分为每个检测要么分配给目标,要么标记为不匹配。
第二步:使用三角剖分重建3D姿态,并通过奇异值分解(SVD)进行求解。
创新点:①利用视频中的时间一致性将每个视图的2D姿势与3D姿势直接匹配到3维空间中,在3维空间中,交叉视图多人跟踪会保留并迭代更新3D姿态;
②计算代价与相机个数成线性关系。
完整算法:
数据集测试效果:对于4个人的12台摄像机,达到154 FPS,对于16个人的28台摄像机,则达到34 FPS