论文:https://arxiv.org/pdf/2203.11496.pdf
1.摘要
作者认为现在的fusion难点在于,LiDAR点与图像像素点通过标定矩阵进行硬关联。本文提出一种方法,名称叫TransFusion。一个强大的LiDAR-camera融合的解决方案,处理劣质图像条件的软关联机制。
结构组成:卷积骨干结构和基于tansformer decoder的检测头。解码器的第一层使用一组稀疏的物体查询,从LiDAR点云中预测初始边界框,而其第二层 解码器第二层自适应地将物体查询与有用的图像特征相融合,利用空间和背景关系。注意力机制模块可以自适应的确定应从图像中提取哪些地方和哪些信息。
2.摘要
以前的方法:首先,他们只是通过元素相加或串联来融合LiDAR特征和图像特征,因此他们的性能在低质量的图像特征(如光照条件不好的图像)下会严重下降。其次,在稀疏的LiDAR点和密集的图像像素之间寻找硬关联,不仅浪费了许多具有丰富语义信息的图像特征,而且还严重依赖两个传感器之间的高质量校准,由于固有的时空错位,这通常很难获得。
现在:作者想解决这个问题。
怎么解决:引入一个有效且鲁棒的多模态检测框架(a novel transformer-based LiDAR-camera fusion model for 3D detection);将融合过程中的硬关联替换为软关联。
3.相关工作
LiDAR-only 3D Detection:预测给定点云中物体的三维检测框;
LiDAR-Camera 3D Detection:点云和图像多模态三维检测。
4.方法
提出方法TransFusion for LiDAR-camera 3D object detection。
待补充
5.实验结论