paper title: Cross View fusion for 3D Human Pose Estimation
paper link:https://arxiv.org/abs/1909.01203
oral or demo video:https://www.youtube.com/watch?v=CbTUC7kOk9o
project: -
github:https://github.com/microsoft/multiview-human-pose-estimation-pytorch
conf & anthor:ICCV 19, Haibo Qiu(USTC,MSRA) et al;
arXiv submit v1:2019.09
主要内容
这篇文章主要提出一种多视图融合的3D姿态估计方法,主要分为三部分:(1)是使用2D关键点检测网络分别对各个视图做关键点检测,(2)是对不同视图的结果进行融合,(2)是用递归的图结构模型估计3D人体姿态。
方法流程
多视图融合
由于3D姿态估计的准确性严重依赖于2D关键点检测的准确性,但是目前的2D姿态估计由于遮挡、相机视角等原因,检测结果并不能做到很准确。所以这篇文章想通过不用视角下的heatmap进行融合,以提高2D关键点的准确性。
总体的流程如下,首先多个视图得到的图片分别独立经过2D检测网络输出得到heatmap,然后将不同视图的heatmap进行融合。2D检测和融合是用一个CNN实现的,可以实现端到端的训练。
对于两个相机视图 C u , C v C_{u},C_{v} Cu,Cv,视图融合可以由以下的公式表示:
x i u ← x i u + ∑ j = 1 ∣ Z v ∣ w j , i x j v , ∀ i ∈ Z u x^{u}_{i} \leftarrow x^{u}_{i} + \sum^{|Z^{v}|}_{j=1} w_{j,i}x^{v}_{j}, \forall i \in Z^{u} xiu←xiu+j=1∑∣Zv∣wj,ixjv,∀i∈Zu
其中:
- Z u , Z v Z^{u},Z^{v} Zu,Zv分别表示视图 C u , C v C_{u},C_{v} Cu,Cv输出的heatmap上的元素集合;
- x i u , x j v