A simple yet effective baseline for 3d human pose estimation
主要工作
在以往的人体3D关键点检测的方法中,主要有两种,一种是构造end-to-end的网络,直接实现输入普通图像,输出人体3D关键点;另一种是首先使用2D关键点检测的方法,检测出2D的关键点,然后使用匹配对对齐的方式构造出3D关键点。
这篇文章的工作非常简单,但是也非常的有用。其主要工作就是构造一个网络,实现2D人体关键点到3D关键点的映射。实际上,2D关键点到3D关键点的映射,就是一个回归过程,而现在使用神经网络构造回归器是非常容易的,因此很容易想到使用训练一个神经网络,实现回归过程。因为作者的方法比较简单,所以作者自己也说这是一个baseline。具体的:
- 构造了一个高效的2D转关键点转3D关键点的 神经网络
实现细节
网络结构
作者借鉴了如上图所示的Resnet residual结构,作者称之为block,每个block中有两个全连接层(Linear),每个全连接层后面都跟着batch normalization、ReLU、Dropout层。
除此之外,作者还在block前,加了一个全连接层,用来将输入的