BEVFusion(mit)

文章探讨了在自动驾驶中,BEV(鸟瞰图)下传感器融合感知的重要性,针对几何失真和语义丢失问题,提出将数据统一投射至BEV空间进行融合。使用Swin-T提取图像特征,通过LSS转换到BEV空间,并用voxelnet处理点云数据。全卷积融合方法结合带有残差的BEV编码器补偿融合误差,实现高效的目标检测和地图分割。该研究基于MIT在2022年CVPR发表的论文BEVFusion。
摘要由CSDN通过智能技术生成

        最近因为项目和论文的需要,要在bev下传感器融合感知上做点事情。由于这个领域还比较新,成果不多。准备系统学习一下。对于关键词传感器融合&BEV,如果放在一起那确实是挺窄的方向,但凡去掉一个关键词,都是一个热门的大方向。比如传感器融合感知,就有很多种融合方法,各种融合类型。而BEV感知也是这样,因为还有LiDAR BEV和Camera BEV。所以今天就犯了一个错误,总觉得怕自己学的不够全面,又想看BEV融合,但同时又不想错过各个领域的好方法,于是还emo了一会。后来想通了,先从重要的看,即最核心的。因为这些方法的产生也是别人从各自领域的方法中筛选出来的。如果有时间或有需要,再去深入各自领域的内容。

               因此我就从“BEV下传感器融合感知”这个关键词开始学起。 今天记录一下标杆论文BEVFusion。这是MIT在2022年中旬的一篇文章,发表在CVPR。处于效率考虑,只记录问题、方法、特色这三点,因为这三点才是核心。

1.存在的问题

        目前自动驾驶用上了各式传感器,好的融合对可靠的感知具有意义。融合时存在问题,当把点云投到图像上面时,产生几何失真。图像投到点云,语义丢失。因此可以把它们统一投射到一个合适的空间在进行融合,那就是BEV。对谁都友好,既保留了点云的几何信息,也保留了图像的语义信息。

2.我们的方法

对于相机流数据的处理,采用的步骤是提取特征并转换到BEV空间 ;对激光流就比较简单了,直接用voxelnet就可以了。然后把得到的两种BEV特征利用全卷积的方法进行融合。

        1.图像的处理

                首先利用swin-t提取相机的特征,然后利用lss把图像空间的特征转变为BEV空间下的特征,具体做法是先利用估计得到图像的深度,再根据深度得到投射到空间中的伪点云特征。然后再利用池化压缩到BEV空间,在这一步中遇到了问题,池化时由于数据量太大导致效率低。解决方法是采用预计算和间隔减少来降低延迟和减少计算。

        2.点云的处理

                 直接用voxelnet

        3.全卷积融合

                为了避免特征在转变为BEV时产生的误差导致的融合不准确,利用带有残差的卷积BEV编码器来融合特征,补偿失调。

        4.多任务检测头

               可以目标检测和地图分割

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值