MatrixVT: Efficient Multi-Camera to BEV Transformation for 3D Perception
本文提出了一种高效的多摄像头到鸟瞰图 (BEV) 视图转换方法,用于 3D 感知,称为 MatrixVT。现有的视图转换器要么转换效率低下,要么依赖于特定于设备的操作符,阻碍了 BEV 模型的广泛应用。相比之下,我们的方法仅使用卷积和矩阵乘法 (MatMul) 即可有效地生成 BEV 特征。具体而言,我们建议将 BEV 特征描述为图像特征的 MatMul 和稀疏特征传输矩阵 (FTM)。然后引入一个 Prime Ex 提取模块来压缩图像特征的维度并降低 FTM 的稀疏性。
原创
2024-10-08 18:08:34 ·
927 阅读 ·
0 评论