本文承接上篇:
4 DETR3D引入3D位置编码:PETR[10]和PETRv2[11](旷世科技,2022)
[10] PETR: Position Embedding Transformation for Multi-View 3D Object Detection
[11] PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
PETR论文指出,DETR3D虽然可以得到比较好的性能,但是存在三个问题:
1.bev空间与多视图之间的信息交互依赖于3D参考点估计的准确性,如果估计不准,可能无法投影到有效区域内,无法与2D图像进行交互;
2.只进行了object queries与3D参考点投影的2D点的特征之间的信息交互(前文提到),没有学习到全局信息;
3.由于需要采样和投影,DETR3D的pipeline相对复杂,影响推理的效率。
所以,PETR摒弃了采样和投影,直接计算2D多视图对应的3D位置编码,并加到2D图像特征中,再和3D的object queries进行交互,直接对3D object queries进行更新,大大简化了pipeline。DETR/DETR3D/PETR的对比图和PETR结构图如下所示: