Cross View fusion for 3D Human Pose Estimation 论文解读

最新推荐文章于 2022-12-21 11:37:21 发布

JerryZhang__

最新推荐文章于 2022-12-21 11:37:21 发布

阅读量2.3k

点赞数 1

分类专栏： Human Pose Estimation 文章标签：深度学习姿态估计

本文链接：https://blog.csdn.net/JerryZhang__/article/details/110394684

版权

本文深入解读了Cross View fusion for 3D Human Pose Estimation论文，介绍了一种通过融合多视角2D关键点检测，利用递归图结构模型(RPSM)估计3D人体姿态的方法。实验表明，该方法在2D检测不准确时仍能显著提升结果，并具有良好的泛化性。

摘要由CSDN通过智能技术生成

paper title: Cross View fusion for 3D Human Pose Estimation
paper link：https://arxiv.org/abs/1909.01203
oral or demo video：https://www.youtube.com/watch?v=CbTUC7kOk9o
project: -
github：https://github.com/microsoft/multiview-human-pose-estimation-pytorch
conf & anthor：ICCV 19, Haibo Qiu(USTC,MSRA) et al;
arXiv submit v1：2019.09

主要内容

这篇文章主要提出一种多视图融合的3D姿态估计方法，主要分为三部分：(1)是使用2D关键点检测网络分别对各个视图做关键点检测，(2)是对不同视图的结果进行融合，(2)是用递归的图结构模型估计3D人体姿态。

方法流程

多视图融合
由于3D姿态估计的准确性严重依赖于2D关键点检测的准确性，但是目前的2D姿态估计由于遮挡、相机视角等原因，检测结果并不能做到很准确。所以这篇文章想通过不用视角下的heatmap进行融合，以提高2D关键点的准确性。
总体的流程如下，首先多个视图得到的图片分别独立经过2D检测网络输出得到heatmap，然后将不同视图的heatmap进行融合。2D检测和融合是用一个CNN实现的，可以实现端到端的训练。
pipeline
对于两个相机视图 $C_{u},C_{v}$ ，视图融合可以由以下的公式表示：
$x^{u}_{i} \leftarrow x^{u}_{i} + \sum^{|Z^{v}|}_{j=1} w_{j,i}x^{v}_{j}, \forall i \in Z^{u}$
其中：