HMR是一个简单且广泛使用的top-down方法,用以估计3D人体的pose和shape参数。根据人物检测框,得到一个方形的人物区域裁剪图,resize到224x224分辨率,经过一个卷积encoder提取特征,再经过3次迭代的MLP回归器预测SMPL参数
Ψ
=
{
θ
,
β
}
\Psi=\{\theta, \beta\}
Ψ={θ,β}和弱透视投影参数
P
w
e
a
k
=
{
s
,
t
x
,
t
y
}
P_{weak}=\{s, t_x, t_y\}
Pweak={s,tx,ty}, 这个虚拟相机
M
c
r
o
p
M_{crop}
Mcrop是相对于裁剪图像而言。s是尺度参数,
t
x
t_x
tx和
t
y
t_y
ty是人体根结点相对
M
c
r
o
p
M_{crop}
Mcrop相机沿X和Y轴的平移。所以这里估计的并不是传统意义上的相机内参。预定义的大焦距
f
H
M
R
=
5000
f_{HMR}=5000
fHMR=5000,
P
w
e
a
k
P_{weak}
Pweak可以转换为透视投影参数
P
p
e
r
s
p
=
{
f
H
M
R
,
t
c
r
o
p
}
P_{persp}=\{f_{HMR}, t^{crop}\}
Ppersp={fHMR,tcrop},
t
c
r
o
p
=
[
t
X
c
r
o
p
,
t
Y
c
r
o
p
,
t
Z
c
r
o
p
]
t^{crop}=[t_X^{crop}, t_Y^{crop}, t_Z^{crop}]
tcrop=[tXcrop,tYcrop,tZcrop]代表人体根节点相对
M
c
r
o
p
M_{crop}
Mcrop沿着X, Y, Z三个轴的平移。根据相似三角形可得:
t
X
c
r
o
p
=
t
x
,
t
Y
c
r
o
p
=
t
y
,
t
Z
c
r
o
p
=
2
⋅
f
H
M
R
r
⋅
s
t_X^{crop}=tx, \quad t_Y^{crop}=t_y, \quad t_Z^{crop}=\frac{2\cdot f_{HMR}}{r\cdot s}
tXcrop=tx,tYcrop=ty,tZcrop=r⋅s2⋅fHMR
J
2
D
c
r
o
p
=
Π
J
3
D
c
r
o
p
=
Π
(
J
3
D
+
t
c
r
o
p
)
J_{2D}^{crop} = \Pi J_{3D}^{crop} = \Pi(J_{3D} + t^{crop})
J2Dcrop=ΠJ3Dcrop=Π(J3D+tcrop)
r=224代表了resized方形裁切输入的分辨率。
CLIFF计算的是全图分辨率下的重投影误差,而不是局部crop图。因此需要计算在原始相机
M
f
u
l
l
M_{full}
Mfull坐标系下的根结点平移量
t
f
u
l
l
=
[
t
X
f
u
l
l
,
t
Y
f
u
l
l
,
t
Z
f
u
l
l
]
t^{full}=[t_X^{full}, t_Y^{full}, t_Z^{full}]
tfull=[tXfull,tYfull,tZfull]。
t
X
f
u
l
l
=
t
X
c
r
o
p
+
2
⋅
c
x
b
⋅
s
t_X^{full} = t_X^{crop} + \frac{2\cdot c_x}{b\cdot s}
tXfull=tXcrop+b⋅s2⋅cx
t
Y
f
u
l
l
=
t
Y
c
r
o
p
+
2
⋅
c
y
b
⋅
s
t_Y^{full} = t_Y^{crop} + \frac{2\cdot c_y}{b\cdot s}
tYfull=tYcrop+b⋅s2⋅cy
t
Z
f
u
l
l
=
t
Z
c
r
o
p
⋅
f
C
L
I
F
F
f
H
M
R
⋅
r
b
t_Z^{full} = t_Z^{crop} \cdot \frac{f_{CLIFF}}{f_{HMR}}\cdot\frac{r}{b}
tZfull=tZcrop⋅fHMRfCLIFF⋅br
J
2
D
f
u
l
l
=
Π
J
3
D
f
u
l
l
=
Π
(
J
3
D
+
t
f
u
l
l
)
J_{2D}^{full} = \Pi J_{3D}^{full} = \Pi(J_{3D} + t^{full})
J2Dfull=ΠJ3Dfull=Π(J3D+tfull)
太晚了,具体的推导待续。