【论文阅读】3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for

一个多模态 (Camera + Lidar) 3D 目标检测 SOTA 方法!论文链接:https://arxiv.org/abs/2004.12636

摘要

本文提出了一种融合摄像机和激光雷达传感器进行三维目标检测的深层结构。由于摄像机和激光雷达的传感器信号具有不同的特性和分布,融合这两种模式有望提高三维目标检测的精度和鲁棒性。相机和激光雷达融合带来的一个挑战是,从每种成像方式获得的空间特征图在相机和世界坐标系中都由明显不同的视图表示;因此,在不丢失信息的情况下组合两个异构特征图并非易事。为解决这一问题,我们提出了一种结合摄像机和激光雷达特征的名为 3D-CVF 的方法。首先,该方法采用自动校准投影 (auto-calibrated projection),将二维摄像机特征转换为与鸟瞰图 (BEV) 中的 LiDAR 特征对应性/响应 (correspondence) 最高的平滑空间特征图。然后,应用门控特征融合网络 (gated feature fusion network),利用空间注意力图,根据区域适当地混合摄像机和激光雷达的特征。接下来,在后续的提案精细化阶段 (proposal refinement stage),还实现了相机-激光雷达的特征融合。在 2D 相机视图域中通过 3D 感兴趣区域网格池化 (3D RoI grid pooling) 使用相机特征,并与 BEV 特征融合以改进方案。我们在 KITTI 和 nuScenes 3D目标检测数据集上进行的评估表明,与单模态相比,相机激光雷达融合提供了显著的性能增益,并且所提出的 3D-CVF 在 KITTI 基准中达到了 STOA 的性能。

展示

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值