Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views
题目:《快速鲁棒性多视图多人3D姿态估计》
作者:
来源:CVPR 2019
研究内容:
多人-多视图-无监督
创新点:
①提出了一种多路匹配算法,以找到跨多个视图检测到的2D姿势的周期一致对应关系。所提出的匹配算法能够修剪错误检测并处理视图之间的部分重叠,而不知道场景中的真实人数;
②结合几何和外观提示,以匹配跨视图检测到的2D姿势。
现有问题与技术:
通过图结构模型[1] 直接推理3D中与2D检测几何兼容的所有假设。其缺点是该问题的结构状态空间巨大,当摄像机数量少时,该方法并不稳健(对摄像机数量较为敏感),由此提出本文:基于凸优化的多路匹配算法。
现有的多路匹配2D姿态算法,常常使用极线约束(判断2个2D姿态是否为相同的3D姿态的投影),其缺点为①对遮挡和截断位置,估计不准确性;②对每对视图可能违反循环一致性约束[2]
主要挑战:找出噪声和不完整的2D姿态中找到跨视图的对应关系(属于哪个人的2D Pose的视图匹配)
本文提出:
基于凸优化的多路匹配算法(对所有视图中检测到的2D Pose聚类以此解决身体对应问题)
👇
不同视图的同一人2D Pose与关键点一致对应
【周期一致性约束:解决多视图匹配产生全局一致性对应关系;几何一致性+外貌相似性(由此进行聚类得到3D姿态)以此减少模糊匹配】
👇
针对每个人与匹配的2D Pose推断出3D Pose(减少了多姿态联合的状态空间大小)
本文框架:
3.1 多视图匹配过程
(1)涉及参数:
①假设场景中有V个摄像头;
②在视图i中检测到边界框pi;
③对于一对视图,使用Aij来表示亲和力矩阵,其元素代表亲和力分数;
④在两组边界框之间估计的对应关系由部分置换矩阵 Pij表示;
⑤ 表示由N个关节组成的2D姿势。
(2)问题描述
将亲和力矩阵Aij作为输入,输出最佳的部分置换矩阵 Pij,以最大化相应功能并在多视图中循环也一致(亲和力矩阵A结合了外观相似性和几何兼容性)
(3)实现过程:
A:融合的亲和力矩阵
①使用Re-ID网络获得边界框的描述符(如:黑衣服、长头发等)后,并从“pool5”层提取特征向量作为每个边界框的描述符。然后,我们计算边界框对的描述符之间的欧几里德距离,并使用sigmoid函数将距离映射到 中的值作为此边界框对的外观亲和度得分。
②通过距离测量:几何一致性计算(Xi,Xj),满足Dg要很小。
综上,得出融合亲和力矩阵A为
B:求部分置换矩阵P(两组边界框之间的估计关系)
①假设置换矩阵P满足
然而P可以分解为P=YYT(Y表示2D边界框与3D之间的对应关系)
②
对其进行优化:不再要求P半正定,只要求P对称
(if P对称且Pii=Ii,0<P<1)
解决此问题只ADMM算法器的交替方法,引入辅助变量Q重写此问题
对其增广拉格朗日
3.2 3DPS结构
(1)涉及参数:①关节i位置ti;
②2D视图Vi
(2)对3Dpose可能性的估计:
最大化P(T|I)一般策略:
将状态空间转化为3维空间的三维网格,应用最大积算法,但其复杂度随网格空间的增加而增加。
本文最大化P(T|I)策略:
采用3D状态空间为2D关节对的三角测量三角化3D坐标(只要在两视图中检测关节,其真实3D位置就包含在建议中),其状态空间参数减少,而精度增加。
数据集:
(1)Campus数据集:
3人,室外,3相机
评估:PCP(正确估计部分百分比),测量身体部位的3D位置准确性。
(2)Shelf数据集
4人,货架拆除,5摄像机,遮挡多。
(3)CMU Panoptic数据集
多人,室内,百个摄像头,用于定性评估本文方法。