《Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation》论文解读
原文:Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
收录:CVPR2019
Abstract
借助大规模的室内3D数据集和复杂网络结构,基于单视角的的3D人体姿态估计取得显著的进展。然而,对不同环境的通用性仍然是一个难题。
在本文中,通过:① 人体姿态的 几何感知3D表示(geometry-aware 3D representation) 以及② 在训练阶段将多个视图输入到自动编码器模型中,仅使用2D关键点信息作为监督,除此之外还提出 视图合成框架 实现将人体姿态从一个视图合成到另一个视图,来学习视图之间共享的3D表示。为提高潜在3D表示的鲁棒性,进一步引入 一致性约束 来学习3D表示。
为什么使用几何感知3D表示?
因为将学习到的 几何感知3D表示 映射到3D位姿 比 之前将2D坐标或者图像映射到3D位姿容易得多。
1. Introduction
弱监督学习不需要大量精确的3D注释。通过大量自然背景下的2D注释来训练3D注释。但需要面临着自然条件下不受约束的2D标注和实验室环境下受限的3D标注之间进行大范围的领域转换的难题;
整个方法将2D骨架图作为中间媒介,而编码器-解码器的 latent code 就是几何感知3D表示。具体地说,首先将源图像和目标图像映射成2D骨架图,然后训练编码器-解码器从源骨架合成目标骨架。
2. Weakly-Supervised Geometry Representation
Denotation | Meaning |
---|---|
( I t i , I t j ) (I_{t}^{i},I_{t}^{j}) (Iti,Itj) | 时间 t t t 下不同视角 i i i, j j j 的相匹配图像 |
( S t i , S t j ) (S_{t}^{i},S_{t}^{j}) (Sti,Stj) | 时间 t t t 下的二进制骨架映射对, S t ( ⋅ ) ∈ { 0 , 1 } ( K − 1 ) × W × H S_{t}^{(·)}\in \{0,1\}^{(K-1)\times W\times H} St(⋅)∈{0,1}(K−1)×W×H |
在 图像—骨架映射 步骤中,输入相匹配的原图像
(
I
t
i
,
I
t
j
)
(I_{t}^{i},I_{t}^{j})
(Iti,Itj),分别得到相应的K关节点热图
C
t
i
、
C
t
j
C_{t}^{i}、C_{t}^{j}
Cti、Ctj,之后从热图中构造相应的宽度为8像素2D骨架图,最后得到二进制骨架映射对
(
S
t
i
,
S
t
j
)
(S_{t}^{i},S_{t}^{j})
(Sti,Stj)。
通过视图合成来获得几何表示 步骤中,采用L2重建损失来学习,上图的
- encoder ϕ \phi ϕ 的作用:将 S t i → G i S_{t}^{i}\rightarrow G_{i} Sti→Gi ,即:将2D骨架图转化到隐式空间;
- decoder ψ \psi ψ 的作用:将 G i j → S t j G_{ij}\rightarrow S_{t}^{j} Gij→Stj ,即:将隐式空间转化到2D骨架图,其中 G i j = G i × R i → j G_{ij}=G_{i}\times R_{i\rightarrow j} Gij=Gi×Ri→j