1 动机
作者注意到现阶段大多数基于2D投影点预测的网络的优化目标是减小预测点位置和真实点位置的平均误差,因此,即使是同一个优化目标值,也可能得到两个不同的预测结果。所以作者将RANSAC-based PnP用深度神经网络代替来直接预测位姿。
2 网络结构
总共分为三个阶段:
- 每个关键点的预测点集输入到一个共享的MLP中提取特征;
- 对于每一个关键点的点集进行最大池化操作,类似于PointNet以体现该类中各个关键点的无序特性,得到一个128维的向量,8个关键点的向量进行concat操作得到 8 × 128 8\times 128 8×128的特征向量;
- 将这个聚合的特征向量输入到MLP中得到预测结果,一个7维向量(四元数和位移向量)。