Cross View fusion for 3D Human Pose Estimation 论文解读

本文深入解读了Cross View fusion for 3D Human Pose Estimation论文,介绍了一种通过融合多视角2D关键点检测,利用递归图结构模型(RPSM)估计3D人体姿态的方法。实验表明,该方法在2D检测不准确时仍能显著提升结果,并具有良好的泛化性。
摘要由CSDN通过智能技术生成

paper title: Cross View fusion for 3D Human Pose Estimation
paper link:https://arxiv.org/abs/1909.01203
oral or demo video:https://www.youtube.com/watch?v=CbTUC7kOk9o
project: -
github:https://github.com/microsoft/multiview-human-pose-estimation-pytorch
conf & anthor:ICCV 19, Haibo Qiu(USTC,MSRA) et al;
arXiv submit v1:2019.09

主要内容

这篇文章主要提出一种多视图融合的3D姿态估计方法,主要分为三部分:(1)是使用2D关键点检测网络分别对各个视图做关键点检测,(2)是对不同视图的结果进行融合,(2)是用递归的图结构模型估计3D人体姿态。

方法流程

多视图融合
由于3D姿态估计的准确性严重依赖于2D关键点检测的准确性,但是目前的2D姿态估计由于遮挡、相机视角等原因,检测结果并不能做到很准确。所以这篇文章想通过不用视角下的heatmap进行融合,以提高2D关键点的准确性。
总体的流程如下,首先多个视图得到的图片分别独立经过2D检测网络输出得到heatmap,然后将不同视图的heatmap进行融合。2D检测和融合是用一个CNN实现的,可以实现端到端的训练。
pipeline
对于两个相机视图 C u , C v C_{u},C_{v} Cu,Cv,视图融合可以由以下的公式表示:
x i u ← x i u + ∑ j = 1 ∣ Z v ∣ w j , i x j v , ∀ i ∈ Z u x^{u}_{i} \leftarrow x^{u}_{i} + \sum^{|Z^{v}|}_{j=1} w_{j,i}x^{v}_{j}, \forall i \in Z^{u} xiuxiu+j=1Zvwj,ixjv,iZu
其中:

  • Z u , Z v Z^{u},Z^{v} Zu,Zv分别表示视图 C u , C v C_{u},C_{v} Cu,Cv输出的heatmap上的元素集合;
  • x i u , x j v
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值