TransFusion-Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

不忙的时候,阅读论文、调研文献。

这篇是2022CVPR、3D检测,采用激光雷达和图像相结合的算法。使用Transformer实现多模态融合。

在自动驾驶领域中,感知、识别、检测车辆周围障碍物有多种方案,有仅基于视觉的、有仅基于激光雷达的,还有基于多传感器融合的。TransFusion采用了多传感器融合的方案,以软关联(soft-association)的方式提高了鲁棒性。

由于视觉技术十分成熟,用来实现车辆周围障碍物检测是比较直觉的方案,难点在于黑夜中的光线问题、恶劣天气下可见范围问题,等(欢迎补充)。总之不完美。

激光雷达,用来检测车辆周围障碍物,难点在于很容易受到天气的影响(实验室的同学做其他相关任务,他们采数据时是要考虑天气因素的)。虽然激光雷达不在乎白天、黑夜,但是仍然不完美。

多传感器融合技术仍在发展中,采集、帧同步、拼接、校准等问题是相比其他单模态技术繁琐的点。但是更头疼的是,多传感器数据的关系是怎样的?数据驱动的深度学习,如何利用多模态数据,并摆脱多模态的依赖?(图像+雷达,work!只有图像,或只有雷达,work!)

如果我们辛辛苦苦搞了个多模态的模型,实测中某个模态的数据出现了不可避免的瑕疵,比如晚上缺少光照,导致整个模型失效,那太遗憾了。

TransFusion采用以激光雷达为主、相机为辅思路,主要以Transformer提取特征。因为Q可以通过随机初始化得到,而TransFusion采用了Image Guidance,就构建了软关联(soft-association)关系。

 搬1张。(我想,能不能弄个以图像为主、雷达为辅的呢.doge)

再搬1张。(简单地说,img和lidar做attention,假定已经匹配到足够好了,建立img和lidar的相互关系)。

论文中采用的数据是,nuScenes Dataset和Waymo Open Dataset。代码在mmdet3d上开发的,lidar的backbone用的SECOND,img的backbone用的是ResNet,关键就在于TransFusion这块。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值