自动驾驶,视觉路线和激光雷达路线对比
附赠自动驾驶学习资料和量产经验:链接
自动驾驶路线一 视觉路线
特斯拉FSD Beta从2021年开始采用BEV技术,从2022年开始使用由BEV发展而来的占用网络技术(从HW3.0的后期开始)。
**BEV:**Bird’s Eye View,鸟瞰图
摄像头图像(2D)→BEV空间(3D)
BEV为鸟瞰图,是不同视角的摄像头捕捉的图像统一投射到同一个BEV空间,形成鸟瞰图。
以特斯拉为例,特斯拉车型使用8个摄像头采集图像,并进行有效的融合,系统直接通过将所有摄像头采集图像通过矫正后,统一输入到神经网络来提取特征,然后利用基于自注意力机制的transformer,将这些特征进行关联,之后再投影到一个向量空间之中,并且之前的还未去掉雷达的特斯拉还会加入一些雷达的数据,最终拿到一张反映周围环境的鸟瞰图。
这种鸟瞰图仿佛就是开了一个上帝视角,让车辆能够把近处的感知统一放到一个平面中,尽可能的增大了感知的范围和冗余度。
和传统的图像空间感知相比,BEV感知可以将多个传感器采集到的数据输入到统一的空间进行处理,有效解决了2D图像视角的遮挡问题、避免了误差叠加,也使得时间融合更容易形成4D空间。
同时,感知和预测在同一个空间进行,可以通过神经网络快速迭代数据,实现端到端的优化。
不过这一技术有一个先天的BUG,也就是鸟瞰图依然是一个2D图像,就像坐飞机时尽可能地向下垂直俯瞰,并不太能分辨得出高低起伏,建筑物或者山地与周围的平地一样,难以感知到深度。
还有一个点是BEV中虽然系统能够看得见物体,但是依然不一定能够识别得出这是个什么物体。非常依靠车企在研发过程中提前的标定和分类。
2021年AI Day上, 特斯拉披露已绘制 2000+公里的道 路环境,通过仿真 获得3.71亿张图 片及4.8亿个标注, 且已实际应用在车端模型中。
Occupancy Network:算法
估计位置占据情况,提高行驶准确度
上面说到BEV中虽然系统能够看得见物体,但不能够识别得出这是个什么物体,依靠车企在研发过程中提前的标定和分类。但如果只能依靠提前的学习和标定,系统永远在拄着拐杖。面对路面上的突发情况,比如临时的施工以及遗撒的物体,都不能做到万无一失。所以特斯拉从BEV,进化到了占用网络。
虽然占用网络也是BEV技术的延伸,但是它们最大的区别就在于系统的感知从2D变为了3D。
Occupancy Network:占用网络是一种不同的算法,基于机器人思想,称为占用网格映射。它将世界划分为一个网格单元,然后定义哪个单元被占用,哪个是空闲的。占用网络的理念是获得体积占用,它是3D的,更好的表达来描述障碍物,完整估计3D空间里每一个位置的占据情况(occupancy)、语义 (semantic)和运动情况(flow)。
特斯拉车型把自己放在了3D的空间内,让一切障碍物都能在3D空间内用块状物体展现出来,系统能够在10毫秒内向计算单元输出车辆周围每个3D位置的占用概率,并能够预测被瞬时遮挡的障碍物。特斯拉无需再去纠结物体是什么,也不用再去识别分类,只要知道了物体的大概形态,它就知道要不要躲了。Mobileye最新的Super Vision也是利用了类似的2D变3D的技术模式。目前主流自动驾驶厂商中,依然在坚持搞视觉方案的,也就只有它们两家了。
无论是BEV还是占用网络,抑或是HW4.0可能带来的更先进的技术,驱使着特斯拉不断在视觉算法方面卷上天的,就是因为它缺少雷达传感器,特别是激光雷达这类能够扫描出3D空间的传感器。因为视觉的平面感知没法有3D的效果,所以特斯拉为了不用激光雷达,逼着自己走出来一条新路线。
自动驾驶路线二 激光雷达路线
国内绝大多数自动驾驶方案供应商们,大家都选择了激光雷达路线。
上面提到,视觉路线的最大痛点是平面感知没有3D效果,而激光雷达就能直接扫描出3D空间。
不管有没有先发优势,用上激光雷达,自动驾驶的研发落地进度就是会加快,BEV技术只能给出2D的鸟瞰图,但激光雷达可以给出3D的感知效果。
激光雷达发出的激光束,可以通过点云来绘制出一个物体的大概图像,一些等效线束比较高的激光雷达,几乎具备一定的成像能力,而且是3D效果图。
而且不少厂家的激光雷达都布置在了比较高的位置,不少车型都用了不止一颗激光雷达,各个方向其实都能有3D感知。
—名词解释—
Transformer:神经网络模型
将图像数据转化到矢量空间
Transformer是一种基于注意力机制的神经网络模型,可以更好地实现图像数据至BEV视角的转化。特斯拉先在BEV空间 层中初始化特征,再通过多层的Transformer和2D图像特征进行交互融合,迭代处理后最终得到BEV特征。
数据标注:人机结合,效率持续攀升
数据量大幅增长和视觉神经网络更加复杂,特 斯拉的标注对象从2D图像转变为4D对象 (3D空间+时间),特斯拉为此开发了自 动标注系统,进行人机结合标注,数据标 注效率持续攀升。
仿真训练:加强对长尾问题的处理能力
仿真训练在软件环 境中设计模拟不同 的驾驶场景,提供 更丰富的路面情形 供自动驾驶模型学 习,加强对长尾问 题的处理能力