Tesla技术方案深度剖析：自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

adsdriver

于 2024-05-24 20:09:35 发布

阅读量678

点赞数 3

文章标签：自动驾驶 Tesla 技术方案感知定位决策规划场景重建

本文链接：https://blog.csdn.net/liuphahaha/article/details/139183510

版权

本文深度剖析Tesla的自动驾驶技术方案，涵盖感知定位、决策规划、场景重建、场景仿真和数据引擎等方面。重点介绍了特斯拉的摄像头布局、图像预处理、BEV融合、决策规划算法以及自动标注系统，展示了其在自动驾驶领域的独特创新和实践成果。

摘要由CSDN通过智能技术生成

Tesla技术方案深度剖析：自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

附赠自动驾驶最全的学习资料和量产经验：链接

01 感知：构建实时的4D自动驾驶场景

1.1 特斯拉摄像头布局

特斯拉的摄像头视野可以覆盖车身周围360°，在前向有120°鱼眼、长焦镜头用于加强观测，布局如上图。

1.2 特斯拉图像数据预处理：

特斯拉采用的是36Hz的1280*960-12bit的图像原始数据，这相对于只有8-bit的ISP后处理数据多了4位信息，动态方位扩大了16倍。特斯拉这样处理的原因有2个：

1) ISP基于rule-base的算法对原始信号做了自动对焦(AF)、自动曝光(AE)、自动白平衡(AWB)、坏点校正(DNS)、高动态范围成像(HDR)、颜色校正(CCM)等，这些满足于人眼可视化需求，但不一定是自动驾驶的需要。相对于rule-base的ISP，神经网络的处理能力更为强大，能够更好的利用图像的原始信息，同时避免ISP带来的数据损失。

2) ISP的存在不利于数据的高速传输，影响图像的帧率。而将对原始信号的处理放在网络运算中，速度要快很多。

这种方式跨过了传统类似ISP的专业知识，直接从后端需求驱动网络学习更强的ISP能力，可以强化系统在低光照、低可见度条件下超越人眼的感知能力。基于这个原理Lidar、radar的原始数据用于网络拟合应该也是更好的方式。

1.3 backbone网络：Designing Network Design Spaces

RegNet

特斯拉采用的是RegNet，相比于ResNet进行了更高一层的抽象，解决了NAS搜索设计空间(将卷积、池化等模块：连接组合/训练评估/选最优)固定、无法创建新模块的弊端，可以创建新颖的设计空间范式，能够发掘更多的场景适配新的"ResNet"，从而避免专门去研究设计神经网络架构。如果出来更好的BackBone可以替换这部分。

1.4 neckwork : EfficientDet: Scalable and Efficient Object Detection

BiFPN

PANet比FPN更准是因：在FPN自顶向下的单一路径流的基础上又额外增加了自底向上的路径流，也因此带入更高的参数与计算；
BiFPN移除了只有一个输入的节点(最上层和最下层)，因为网络的目的是融合特征，所以没有融合能力的节点直接连接就可以。
BiFPN将输入直接连接到输出节点，在不增加计算的情况下，融合了更多特征。
BiFPN将基础结构进行了多层堆叠，能够融合出更高纬度的特征。

FPN->BiFPN

1.5 BEV Fusion：FSD感知的空间理解能力

2D感知

在BEV出现之前，自动驾驶感知主流方案都是基于相机的2D Image Space，但是感知的下游应用方-决策和路径规划都是在车辆所在的2D BEV Space进行的，感知与规控之间的壁垒阻碍了FSD的发展。为了消除这个壁垒，就需要将感知从2D图像空间后置到2D的自车参考系空间，即BEV空间。

基于传统技术：

会采用IPM(Inverse Perspective Mapping)假设地面为平面利用相机-自车外参将2D Image Space转换为2D的自车空间，即BEV鸟瞰空间。这里有个很明显的缺陷：平面假设在面对道路起伏和上下坡时便不在成立。

多相机接边拼接问题

由于每个摄像头的FOV有限，所以即使借助IPM将2D Image Space转换到2D BEV空间还需要解决多个相机图像的BEV空间拼接。这其实需要高精度的多相机标定算法，而且需要在线的实时校正算法。总结来说，需要实现的就是将多相机2D图像空间特征映射到BEV空间，同时解决由于标定和非平面假设引起的变换重叠问题。

Tesla基于Transformer的BEV Layer的实现方案：

BEV_FUSION

1) 首先在各个相机分别通过CNN主干网络和BiFPN提取多尺度特征图层，多尺度特征图层一方面通过MLP层生成Transformer的方法中所需的Key和Value，另一方面对多尺度Feature Map进行Global Pooling操作得到一个全局描述向量（即图中的Context Summary），同时通过对目标输出BEV空间进行栅格化，再对每个BEV栅格进行位置编码，将这些位置编码与全局描述向量进行拼接（Concatenate）后再通过一层MLP层得到Transformer所需的Query。

在Cross Attention操作中，Query的尺度决定最终BEV层之后的输出尺度（即BEV栅格的尺度），而Key和Value分别处于2D图像坐标空间下，按照Transformer的原理，通过Query和Key建立每个BEV栅格收到2D图像平面像素的影响权重，从而建立从BEV到输入图像之间的关联，再利用这些权重加权由图像平面下的特征得到的Value，最终得到BEV坐标系下的Feature Map，完成BEV坐标转换层的使命，后面就可以基于BEV下的Feature Map利用已经成熟的各个感知功能头来直接在BEV空间下进行感知了。BEV空间下的感知结果与决策规划所在的坐标系是统一的，因此感知与后续模块就通过BEV变换紧密地联系到了一起。

Calibration

通过这种方法，

最低0.47元/天解锁文章

adsdriver

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Tesla技术方案深度剖析：自动标注_感知定位_决策规划_场景重建_场景仿真_数据引擎

附赠自动驾驶最全的学习资料和量产经验：链接特斯拉的摄像头视野可以覆盖车身周围360°，在前向有120°鱼眼、长焦镜头用于加强观测，布局如上图。特斯拉采用的是36Hz的1280*960-12bit的图像原始数据，这相对于只有8-bit的ISP后处理数据多了4位信息，动态方位扩大了16倍。特斯拉这样处理的原因有2个：1) ISP基于rule-base的算法对原始信号做了自动对焦(AF)、自动曝光(AE)、自动白平衡(AWB)、坏点校正(DNS)、高动态范围成像(HDR)、颜色校正(CCM)等，这些满足于人眼可视
复制链接

扫一扫