中文标题:端到端9DPose对象检测
摘要
现有的单目视觉3D物体识别方法通常仅使用偏航角(Yaw)来描述物体的姿态,这不足以表达物体可能表现出的各种姿态,如物体的侧向旋转。而且,目前大多数物体识别模型都转换为关键点检测或NOCS地图检测,然后基于PnP预测目标的6D姿态。这种非端到端的姿态预测方法不仅增加了不稳定性,还导致推理效率非常低下。
本文提出了一种端到端的9DPose物体识别模型(3D位置 + 3D姿态 + 3D目标大小),以解决这两个问题。该模型利用单个2D图像同时识别场景中多个物体的3D位置、姿态和大小,有效地捕捉具有三自由度旋转的物体。我们发现了一种非常有效的四元数损失定义方法,能够非常准确地表征姿态误差,为端到端9DPose的实现奠定了基础。我们的方法结合了四元数损失和Rd虚拟坐标系转换技术,能够准确回归物体的3D姿态,显著提高了物体检测的准确性。我们的模型在KITTI数据集的汽车类别上取得了AP3D@0.7的成绩,分别为59.82%@Easy、40.80%@Mod和34.44%@Hard,分别超越了经典模型37.32%、24.34%和20.49%。该算法模型在896*896图像上的运行速度为138.88 fps,远远超过现有的经典方法。此外,它对载体的姿态没有严格要求,表现出卓越的适应性。</