Tesla技术方案深度剖析:自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

本文深度剖析Tesla的自动驾驶技术方案,涵盖感知定位、决策规划、场景重建、场景仿真和数据引擎等方面。重点介绍了特斯拉的摄像头布局、图像预处理、BEV融合、决策规划算法以及自动标注系统,展示了其在自动驾驶领域的独特创新和实践成果。
摘要由CSDN通过智能技术生成

Tesla技术方案深度剖析:自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

附赠自动驾驶最全的学习资料和量产经验:链接

01  感知:构建实时的4D自动驾驶场景

1.1 特斯拉摄像头布局

image

特斯拉的摄像头视野可以覆盖车身周围360°,在前向有120°鱼眼、长焦镜头用于加强观测,布局如上图。

1.2 特斯拉图像数据预处理:

image

特斯拉采用的是36Hz的1280*960-12bit的图像原始数据,这相对于只有8-bit的ISP后处理数据多了4位信息,动态方位扩大了16倍。特斯拉这样处理的原因有2个:

1) ISP基于rule-base的算法对原始信号做了自动对焦(AF)、自动曝光(AE)、自动白平衡(AWB)、坏点校正(DNS)、高动态范围成像(HDR)、颜色校正(CCM)等,这些满足于人眼可视化需求,但不一定是自动驾驶的需要。相对于rule-base的ISP,神经网络的处理能力更为强大,能够更好的利用图像的原始信息,同时避免ISP带来的数据损失。

2) ISP的存在不利于数据的高速传输,影响图像的帧率。而将对原始信号的处理放在网络运算中,速度要快很多。

这种方式跨过了传统类似ISP的专业知识,直接从后端需求驱动网络学习更强的ISP能力,可以强化系统在低光照、低可见度条件下超越人眼的感知能力。基于这个原理Lidar、radar的原始数据用于网络拟合应该也是更好的方式。

1.3 backbone网络:Designing Network Design Spaces

image

RegNet

特斯拉采用的是RegNet,相比于ResNet进行了更高一层的抽象,解决了NAS搜索设计空间(将卷积、池化等模块:连接组合/训练评估/选最优)固定、无法创建新模块的弊端,可以创建新颖的设计空间范式,能够发掘更多的场景适配新的"ResNet",从而避免专门去研究设计神经网络架构。如果出来更好的BackBone可以替换这部分。

1.4 neckwork : EfficientDet: Scalable and Efficient Object Detection

image

BiFPN

  • PANet比FPN更准是因:在FPN自顶向下的单一路径流的基础上又额外增加了自底向上的路径流,也因此带入更高的参数与计算;

  • BiFPN移除了只有一个输入的节点(最上层和最下层),因为网络的目的是融合特征,所以没有融合能力的节点直接连接就可以。

  • BiFPN将输入直接连接到输出节点,在不增加计算的情况下,融合了更多特征。

  • BiFPN将基础结构进行了多层堆叠,能够融合出更高纬度的特征。

image

FPN->BiFPN

1.5 BEV Fusion:FSD感知的空间理解能力

image

2D感知

在BEV出现之前,自动驾驶感知主流方案都是基于相机的2D Image Space,但是感知的下游应用方-决策和路径规划都是在车辆所在的2D BEV Space进行的,感知与规控之间的壁垒阻碍了FSD的发展。为了消除这个壁垒,就需要将感知从2D图像空间后置到2D的自车参考系空间,即BEV空间。

基于传统技术:

会采用IPM(Inverse Perspective Mapping)假设地面为平面利用相机-自车外参将2D Image Space转换为2D的自车空间,即BEV鸟瞰空间。这里有个很明显的缺陷:平面假设在面对道路起伏和上下坡时便不在成立。

image

多相机接边拼接问题

由于每个摄像头的FOV有限,所以即使借助IPM将2D Image Space转换到2D BEV空间还需要解决多个相机图像的BEV空间拼接。这其实需要高精度的多相机标定算法,而且需要在线的实时校正算法。总结来说,需要实现的就是将多相机2D图像空间特征映射到BEV空间,同时解决由于标定和非平面假设引起的变换重叠问题。

Tesla基于Transformer的BEV Layer的实现方案:

image

BEV_FUSION

1) 首先在各个相机分别通过CNN主干网络和BiFPN提取多尺度特征图层,多尺度特征图层一方面通过MLP层生成Transformer的方法中所需的Key和Value,另一方面对多尺度Feature Map进行Global Pooling操作得到一个全局描述向量(即图中的Context Summary),同时通过对目标输出BEV空间进行栅格化,再对每个BEV栅格进行位置编码,将这些位置编码与全局描述向量进行拼接(Concatenate)后再通过一层MLP层得到Transformer所需的Query。

在Cross Attention操作中,Query的尺度决定最终BEV层之后的输出尺度(即BEV栅格的尺度),而Key和Value分别处于2D图像坐标空间下,按照Transformer的原理,通过Query和Key建立每个BEV栅格收到2D图像平面像素的影响权重,从而建立从BEV到输入图像之间的关联,再利用这些权重加权由图像平面下的特征得到的Value,最终得到BEV坐标系下的Feature Map,完成BEV坐标转换层的使命,后面就可以基于BEV下的Feature Map利用已经成熟的各个感知功能头来直接在BEV空间下进行感知了。BEV空间下的感知结果与决策规划所在的坐标系是统一的,因此感知与后续模块就通过BEV变换紧密地联系到了一起。

image

Calibration

通过这种方法,

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值