自动驾驶，视觉路线和激光雷达路线对比

最新推荐文章于 2024-08-15 10:27:41 发布

自动驾驶打工人

最新推荐文章于 2024-08-15 10:27:41 发布

阅读量679

点赞数 22

文章标签：自动驾驶视觉方案激光雷达方案 lidar camera 纯视觉

本文链接：https://blog.csdn.net/NEON7788/article/details/138577059

版权

自动驾驶，视觉路线和激光雷达路线对比

附赠自动驾驶学习资料和量产经验：链接

自动驾驶路线一视觉路线

特斯拉FSD Beta从2021年开始采用BEV技术，从2022年开始使用由BEV发展而来的占用网络技术（从HW3.0的后期开始）。

**BEV：**Bird’s Eye View，鸟瞰图

摄像头图像（2D）→BEV空间（3D）

BEV为鸟瞰图，是不同视角的摄像头捕捉的图像统一投射到同一个BEV空间，形成鸟瞰图。

以特斯拉为例，特斯拉车型使用8个摄像头采集图像，并进行有效的融合，系统直接通过将所有摄像头采集图像通过矫正后，统一输入到神经网络来提取特征，然后利用基于自注意力机制的transformer，将这些特征进行关联，之后再投影到一个向量空间之中，并且之前的还未去掉雷达的特斯拉还会加入一些雷达的数据，最终拿到一张反映周围环境的鸟瞰图。

这种鸟瞰图仿佛就是开了一个上帝视角，让车辆能够把近处的感知统一放到一个平面中，尽可能的增大了感知的范围和冗余度。

和传统的图像空间感知相比，BEV感知可以将多个传感器采集到的数据输入到统一的空间进行处理，有效解决了2D图像视角的遮挡问题、避免了误差叠加，也使得时间融合更容易形成4D空间。

同时，感知和预测在同一个空间进行，可以通过神经网络快速迭代数据，实现端到端的优化。

不过这一技术有一个先天的BUG，也就是鸟瞰图依然是一个2D图像，就像坐飞机时尽可能地向下垂直俯瞰，并不太能分辨得出高低起伏，建筑物或者山地与周围的平地一样，难以感知到深度。

还有一个点是BEV中虽然系统能够看得见物体，但是依然不一定能够识别得出这是个什么物体。非常依靠车企在研发过程中提前的标定和分类。

2021年AI Day上，特斯拉披露已绘制 2000+公里的道路环境，通过仿真获得3.71亿张图片及4.8亿个标注，且已实际应用在车端模型中。

Occupancy Network：算法

估计位置占据情况，提高行驶准确度

上面说到BEV中虽然系统能够看得见物体，但不能够识别得出这是个什么物体，依靠车企在研发过程中提前的标定和分类。但如果只能依靠提前的学习和标定，系统永远在拄着拐杖。面对路面上的突发情况，比如临时的施工以及遗撒的物体，都不能做到万无一失。所以特斯拉从BEV，进化到了占用网络。

虽然占用网络也是BEV技术的延伸，但是它们最大的区别就在于系统的感知从2D变为了3D。

Occupancy Network：占用网络是一种不同的算法，基于机器人思想，称为占用网格映射。它将世界划分为一个网格单元，然后定义哪个单元被占用，哪个是空闲的。占用网络的理念是获得体积占用，它是3D的，更好的表达来描述障碍物，完整估计3D空间里每一个位置的占据情况（occupancy）、语义（semantic）和运动情况（flow）。

特斯拉车型把自己放在了3D的空间内，让一切障碍物都能在3D空间内用块状物体展现出来，系统能够在10毫秒内向计算单元输出车辆周围每个3D位置的占用概率，并能够预测被瞬时遮挡的障碍物。特斯拉无需再去纠结物体是什么，也不用再去识别分类，只要知道了物体的大概形态，它就知道要不要躲了。Mobileye最新的Super Vision也是利用了类似的2D变3D的技术模式。目前主流自动驾驶厂商中，依然在坚持搞视觉方案的，也就只有它们两家了。

无论是BEV还是占用网络，抑或是HW4.0可能带来的更先进的技术，驱使着特斯拉不断在视觉算法方面卷上天的，就是因为它缺少雷达传感器，特别是激光雷达这类能够扫描出3D空间的传感器。因为视觉的平面感知没法有3D的效果，所以特斯拉为了不用激光雷达，逼着自己走出来一条新路线。

自动驾驶路线二激光雷达路线

国内绝大多数自动驾驶方案供应商们，大家都选择了激光雷达路线。

上面提到，视觉路线的最大痛点是平面感知没有3D效果，而激光雷达就能直接扫描出3D空间。

不管有没有先发优势，用上激光雷达，自动驾驶的研发落地进度就是会加快，BEV技术只能给出2D的鸟瞰图，但激光雷达可以给出3D的感知效果。

激光雷达发出的激光束，可以通过点云来绘制出一个物体的大概图像，一些等效线束比较高的激光雷达，几乎具备一定的成像能力，而且是3D效果图。

而且不少厂家的激光雷达都布置在了比较高的位置，不少车型都用了不止一颗激光雷达，各个方向其实都能有3D感知。

—名词解释—

Transformer：神经网络模型

将图像数据转化到矢量空间

Transformer是一种基于注意力机制的神经网络模型，可以更好地实现图像数据至BEV视角的转化。特斯拉先在BEV空间层中初始化特征，再通过多层的Transformer和2D图像特征进行交互融合，迭代处理后最终得到BEV特征。

数据标注：人机结合，效率持续攀升

数据量大幅增长和视觉神经网络更加复杂，特斯拉的标注对象从2D图像转变为4D对象（3D空间+时间），特斯拉为此开发了自动标注系统，进行人机结合标注，数据标注效率持续攀升。

仿真训练：加强对长尾问题的处理能力

仿真训练在软件环境中设计模拟不同的驾驶场景，提供更丰富的路面情形供自动驾驶模型学习，加强对长尾问题的处理能力

自动驾驶打工人

关注

22
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
自动驾驶，视觉路线和激光雷达路线对比

以特斯拉为例，特斯拉车型使用8个摄像头采集图像，并进行有效的融合，系统直接通过将所有摄像头采集图像通过矫正后，统一输入到神经网络来提取特征，然后利用基于自注意力机制的transformer，将这些特征进行关联，之后再投影到一个向量空间之中，并且之前的还未去掉雷达的特斯拉还会加入一些雷达的数据，最终拿到一张反映周围环境的鸟瞰图。无论是BEV还是占用网络，抑或是HW4.0可能带来的更先进的技术，驱使着特斯拉不断在视觉算法方面卷上天的，就是因为它缺少雷达传感器，特别是激光雷达这类能够扫描出3D空间的传感器。
复制链接

扫一扫