1 网络结构
本文的思路是将物体的6DoF位姿估计拆分为旋转矩阵的估计和位移向量的估计。其中,旋转矩阵的估计首先通过网络学习2D-3D的稠密对应,然后通过RANSAC PnP算法可以鲁棒性地求解旋转矩阵;而位移向量的估计主要是估计物体中心点在图像上对应的投影点和深度。
本文创新的地方在于估计旋转矩阵时,提出了DZI模块,该模块可以摆脱网络对目标检测结果的依赖;同时在估计位移向量时,提出了SITE模块来回归
(
u
,
v
)
(u,v)
(u,v)坐标。
2 Dynamic Zoom In (DZI)
首先,DZI模块是用来在gT BBox的基础上随机采样得到新的BBox,它只作用于训练阶段。注意,文中用到的几个数据集的训练集都提供了真实的BBox标注,在此基础上随机采样得到BBox的主要目的是为了摆脱后续位姿估计网络对于目标检测网络的依赖性。在检测时,输入一张多实例多对象RGB图像,首先需要通过目标检测网络提取ROI区域,所以,DZI只作用于训练阶段。
那么在训练阶段,已知图像中某一个对象BBox的标签为
(
x
,
y
,
h
,
w
)
(x,y,h,w)
(x,y,h,w),通过DZI模块随机采样得到的新的BBox的标签为:
3 Scale-invariant Translation Estimation (SITE)
SITE模块的作用是回归得到物体中心点对应的图像投影点的二维坐标以及深度。这里的创新之处在于借鉴了目标检测中回归BBox的思想,回归的量是一个相对偏移量。