小白也能看懂的BEV感知技术(二)

1. 引言

在自动驾驶的领域中,BEVBird's Eye View,鸟瞰图)感知技术扮演着至关重要的角色。它允许自动驾驶车辆从上帝视角“看到”周围的环境,就像一只鸟从空中俯瞰地面一样。这项技术对于理解车辆周围的复杂场景至关重要。虽然BEV感知技术听起来可能有点高深莫测,别担心,本文将继续用简单的语言解释这一技术。

2. BEV纯视觉感知

BEV是自动驾驶领域一个庞大的算法家族,包括不同方向的算法选择。其中,以视觉感知为主的技术路线由特斯拉主导,算法主要建立在多个摄像头上。另一大流派主要利用激光雷达、毫米波雷达和多个摄像头进行感知。许多高阶智驾公司都采用了融合式算法,谷歌的Waymo也是如此。

基于BEV的视觉感知指的是基于多个视角的图像序列作为输入,算法需要将这些视角转换为 BEV 特征并对其进行感知,例如输出物体的三维检测或在BEV视图下进行语义分割。与激光雷达相比,视觉感知具有更丰富的语义信息,但缺乏精确的深度测量功能。此外,基于BEV的深度神经网络模型需要在训练阶段识别图图像中的每个物体。如果遇到训练集中没有的物体类型,或者模型表现不佳,就会出现无法识别的问题。

为了解决通用障碍物识别问题,特斯拉引入了 Occupancy Network, 该项技术改变了感知策略,不再强调物体细分类类别,而是关注道路上是否有障碍物占用。这种障碍物可以用三维体素Voxel来表示,这种方法更为贴切,无论障碍物的具体类型如何,只要当前行驶空间上不被障碍物占用,就都能保证车辆不会撞上障碍物。

3. BEVFormer技术

对于自动驾驶车辆来说,对BEV空间中目标的类型可以大概分为以下两类:

  • 不经常变化的目标: 如可行使区域,路面,车道,建筑物,植被,信号灯等一些其他未分类的静态物体
  • 可变的目标: 即可以移动的物体,如行人、骑行人、汽车、卡车、锥桶等。

这种分类的目的是方便自动驾驶系统进行后续的驾驶规划和控制。在BEV的感知阶段,算法根据物体出现在BEV网格上的概率进行打分,并通过Softmax函数对概率进行归一化处理,最后选择概率最高的物体类型对应的网格的类别预测结果。

在这里插入图片描述

纯视觉BEV感知中最经典的结构就是BEVFormer技术,该技术如上图所示,主要包括以下几个组件:

  • 使用BackboneNeck从环视图像中提取多尺度图像特征(ResNet101-DCN + FPN)
  • 编码器部分,这里包括基于空间的交叉注意力模块以及基于时序的自注意力模块,主要使用Transformer中交叉注意力模块来实现环视图像特征转换为BEV特征
  • Deformable DETR中解码器类似的解码器,主要用于实现3D目标检测的分类和定位任务
  • 使用匈牙利匹配算法来区分正负样本,并使用FocalLoss + L1Loss作为总的损失函数来优化网络参数

在算法创新方面,BEVFormer 采用 Transformer结构来进行BEV时空特征融合。它利用预定义的BEV Query与空间/时间特征进行交互,进而进行时空信息上的融合。这种方法能有效捕捉三维场景中物体的时空关系,并生成更强大的表征。这些创新使 BEVFormer 能够更好地处理环境中的物体检测和场景理解任务。

4. 多传感器融合

BEV 融合派在自动驾驶领域的主要任务是融合各类传感器的数据,包括摄像头、激光雷达、毫米波雷达以及高精度地图等。这种融合机制可以充分利用各个传感器的优势,提高自动驾驶系统对周围环境的感知和理解能力。
激光雷达的优势在于可以直接测量物体的距离,其精度远高于视觉推测的场景深度。激光雷达通常将测量结果转化为深度数据或点云,这两种数据形式的应用历史悠久,成熟的算法可以直接借用,从而减少了开发的工作量。

此外,激光雷达在夜间或恶劣天气条件下仍能正常工作,而在这种情况下,摄像头可能会受到很大影响,导致无法准确感知周围环境。

总之,融合派的目标是有效整合多传感器数据,使自动驾驶系统在各种复杂条件下获得更全面、更准确的环境感知,从而提高驾驶的安全性和可靠性。融合技术在自动驾驶领域发挥着关键作用。它融合了来自不同传感器的信息,使整个系统能更好地感知和理解周围环境,做出更准确的决策和规划。

5. 为什么选择BEV感知?

首先,自动驾驶本身是一个 3DBEV 感知问题。使用 BEV 视角可以提供更全面的场景信息,帮助车辆感知周围环境并做出准确决策。在传统的二维视角中,由于透视效应,物体可能会出现遮挡和比例失调等问题,而 BEV 视角可以有效解决这些问题。同时,BEV技术还能将二维图像特征精确转换为三维BEV特征,并能将提取的 BEV特征应用于不同的感知任务。

另一个重要原因是BEV可以方便地促进多模态融合。自动驾驶系统通常使用多种传感器,如摄像头、激光雷达、毫米波雷达等。BEV视角可以将不同传感器的数据统一表征在同一平面上,这使得传感器数据的融合和处理更加方便直接。

在现有技术中,将单视角检测直接扩展到多视角检测是不可行的。这是因为单视角检测器只能处理单个摄像头的图像数据,而在多视角的情况下,检测结果需要根据相应摄像头的内外参进行转换,才能完成多视角检测。然而,这种简单的后处理方法无法用于数据驱动训练。这使得我们无法轻松地使用端到端训练模型的方式来改进自动驾驶感知系统。为了解决这些问题,基于TransformerBEV 感知技术应运而生。

6. 为什么选择BEV+Transformer结构?

为什么 BEV+Transformer结构会成为主流模式?其背后的关键在于 “第一性原则”,即智能驾驶应该越来越接近 “像人一样驾驶”,而反映到感知模型本身,BEV 是一种更自然的表达方式,由于全局注意力机制,Transformer结构更适合进行视图转换。目标BEV域中的每个位置访问源域图像空间中任何位置的距离都是相同的,克服了CNN 中卷积层的局部有限感受野的缺点。此外,与传统的 CNN 相比,Transformer结构还具有更好的可解释性和灵活性。

随着产学研的推进,BEV+Transformer近期已从普及走向量产,这在当前智能驾驶商业颠覆的背景下,或许是一个难得的亮点。

7. 总结

本文重点介绍了纯视觉BEV感知和多传感器BEV感知的技术细节,并详细阐述了BEV感知的技术优势以及选择BEV+ Transformer结构的必要性。
您学废了嘛?

  • 14
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赵卓不凡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值