EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
CODE: tjiiv-cprg/EPro-PnP
参考解读:同济、阿里的CVPR 2022最佳学生论文奖
Author From
Abstract
【将不可导的最优位姿替换为了可导的概率密度】
通过PnP从单张RGB图像中定位3D目标是计算机视觉中长期存在的问题。受端到端深度学习的启发,近期的一些研究建议将PnP为解释为可微层,这样二维到三维点的对应关系就可以通过对物体位姿的梯度反向传播来部分学习。现有方法中,基于 PnP 几何优化的位姿估计方法往往通过深度网络提取 2D-3D 关联点,然而因为位姿最优解在反向传播时存在不可导的问题,难以实现以位姿误差作为损失对网络进行稳定的端到端训练,此时 2D-3D 关联点依赖其他代理损失的监督,这对于位姿估计而言不是最佳的训练目标。本文提出了EPro-PnP,一个用于 一般端到端位姿估计 的概率PnP层,它输出一个SE(3)流形上的位姿分布,基本把分类SoftMax代入了连续域。2D-3D坐标及相关权重作为中间变量,通过最小化预测和目标位姿分布的KL散度来学习。其基本原理统一了现有的方法,类似于注意力机制。EPro-PnP明显优于其他baseline,缩小了在LineMOD 6DoF位姿估计和nuScenes 3D目标检测基准方面基于PnP的方法和特定任务指向之间的鸿沟。