step 1 input
n n n个相机( n ≥ 2 n≥2 n≥2),同时对场景中的人拍照,连续相机的baseline较小
产生 I 1 , I 2 , . . . I n I_1,I_2,...I_n I1,I2,...In张图片,相邻的图像两两产生图像对,就是训练集
t r a i n i n g _ d a t a : { ( I i , I i + 1 ) ∣ i = 1 , 2 , . . . , n − 1 } training\_data:\{(I_i,I_i+1)|i=1,2,...,n-1\} training_data:{
(Ii,Ii+1)∣i=1,2,...,n−1}
(文中以n=2举例说明训练流程)
step 2
上下分支都有同样的 pose,estimator 网络,ResNet + 反卷积,在MPII 训练集上预训练。
p o s e   e s t i m a t o r 网 络 pose\,estimator 网络 poseestimator网络
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/2b5cf2d424e63958a37c4beb8ac2de29.png)
生成体素热图:
H ^ , H ∈ R w × h × d ( × j × i ) \hat{H},H\in\mathbb R^{w\times h \times d(\times j \times i)} H^,H∈Rw×h×d(×j×i)
- w , h w,h w,h :spatial size after deconvolution
- d d d: depth resolution define as a hyper parameter
使用soft argmax函数。
s o f t   a r g m a x : φ ( ⋅ ) soft\,argmax:\varphi(\cdot) softargmax:φ(⋅)
得到 3D pose (上分支)和2D pose(下分支)
3 D   p o s e :