自动驾驶合集5_异构数据高维输入空间-CSDN博客

本文链接：https://blog.csdn.net/qq_29788741/article/details/134895946

#自动驾驶中基于毫米波雷达视觉融合の3D检测综述

自主驾驶在复杂场景下的目标检测任务至关重要，而毫米波雷达和视觉融合是确保障碍物精准检测的主流解决方案。本论文详细介绍了基于毫米波雷达和视觉融合的障碍物检测方法，从任务介绍、评估标准和数据集三方面展开。

并对毫米波雷达和视觉融合过程的传感器部署、传感器标定和传感器融合（融合方法分为数据级、决策级和特征级融合方法）三个部分进行了汇总讨论。

此外，还介绍了三维（3D）目标检测、自动驾驶中的激光雷达和视觉融合以及多模态信息融合，并进行了展望。

背景

较高level的自动驾驶车辆面临的挑战之一是复杂场景中的精确目标检测，当前的视觉目标检测算法已经达到了性能上限，因为检测算法在实践中面临非常复杂的情况。

对于自动驾驶场景，障碍物主要包括行人、汽车、卡车、自行车和摩托车，视觉范围内的障碍物具有不同的尺度和长宽比。此外，障碍物之间可能存在不同程度的遮挡，并且由于暴雨、大雪和大雾等极端天气，障碍物的外观可能会模糊，从而导致检测性能大大降低[13]。研究表明，CNN对未经训练的场景泛化能力较差[14]。

camera不足以独立完成自动驾驶感知任务，与视觉传感器相比，毫米波雷达的检测性能受极端天气的影响较小[15]、[16]。此外，毫米波雷达不仅测量距离，还可以利用运动物体反射信号的多普勒效应测量速度矢量[17]、[18]。然而，毫米波雷达无法提供目标的轮廓信息，并且难以区分相对静止的目标。从这个方面看，视觉传感器和毫米波雷达的探测能力可以相互补充。基于毫米波雷达和视觉融合的检测算法可以显著提高自主车辆的感知能力，帮助车辆更好地应对复杂场景中的目标检测任务。

基于毫米波雷达和视觉融合的目标检测过程如下图所示，毫米波雷达与视觉融合过程包括三个部分：传感器选择、传感器标定和传感器融合，为了实现毫米波雷达和视觉融合目标检测的预期性能，需要解决以下挑战：

同一时间和空间的标定校准；
融合不同传感器的数据以实现best性能的目标检测；

最近几年，大部分综述集中在视觉检测上，很少有radar-camera融合相关的paper，对雷达和视觉融合缺乏深入分析，本论文将重点介绍低成本毫米波雷达和视觉融合解决方案。

检测任务定义

二维（2D）目标检测使用2D box在车辆的视觉图像中选择检测到的障碍物目标，然后对目标进行分类和定位。这里的定位指的是图像中目标的定位，而不是真实世界中目标相对于车辆的定位。

在三维（3D）目标检测中，使用3D box定位目标，不仅是图像中确定目标的位置，而且还确定了现实世界中目标的姿态和位置。

评价标准

主要使用AP和AR权衡目标检测中的准确度和召回率，通过将召回值和精度值分别作为水平轴和垂直轴，可以获得精度召回（PR）曲线，平均精度（mAP）表示检测模型的合并结果，可通过计算所有类别的平均AP值获得。

以自动驾驶KITTI数据集为例，对于2D对象检测，通过比较检测边界框和gt边界框之间的IoU是否大于阈值来确定目标定位的正确性[22]。然而在自主驾驶的研究中，三维目标检测目前更具吸引力。KITTI正式规定，对于车辆，正确预测要求预测的3D框与真实3D框重叠70%以上，而对于行人和自行车，则要求3D框重叠50%[24]。

相关数据集

相关数据集主要包括：Apolloscape、KITTI、Cityscapes、Waymo Open Dataset、nuScenes等；

Apolloscape

百度在2017年创建的阿波罗开放平台的part，它使用Reigl激光雷达收集点云，Reigl生成的三维点云比Velodyne生成的点云更精确、密度更高。目前，ApolloScape已经打开了147000帧像素级语义标注图像，包括感知分类和道路网络数据等。

KITTI

KITTI数据集[22]，由德国卡尔斯鲁厄理工学院和美国丰田学院建立，是目前最常用的自动驾驶数据集。该团队使用了一辆配备camera和Velodyne激光雷达的大众汽车在德国卡尔斯鲁厄开车6小时，记录交通信息。数据集为每个序列提供原始图像和精确的三维box以及类标签。类主要包括汽车、面包车、卡车、行人、自行车和电车。

Cityscapes

由三个德国实验室联合提供：戴姆勒、马克斯·普朗克信息研究所和达姆施塔特科技大学。它是一个语义理解图像-城市街道场景数据集，主要包含来自50多个城市的5000张城市环境中驾驶场景的高质量像素级标注图像（2975张用于training，500张用于val，1525张用于test，共19个类别）。此外，它还有20000张粗略的标注图像。

Waymo Open Dataset

Waymo数据集是Alphabet股份有限公司旗下自动驾驶公司Waymo的开源项目。它由Waymo自动驾驶汽车在各种条件下收集的标定数据组成，包括覆盖25个城市的1000多万英里自动驾驶里程数据。数据集中包括激光雷达点云和视觉图像。车辆、行人、骑自行车的人和标志都经过了精心标记，该团队完成了1200多万条3D标注和120万条2D标注。

nuScenes

nuTonomy建立的Nuscene数据集[29]是现有最大的自动驾驶数据集，这是第一个配备全自动车辆传感器的数据集。该数据集不仅提供相机和激光雷达数据，还包含radar数据，是目前唯一一个包含雷达数据的数据集。nuScenes提供的三维边界框标注不仅包含23个类，还包含8个属性，包括行人姿势、车辆状态等。

传感器部署

绝大多数汽车制造商采用了radar和摄像头相结合的传感器配置方案，除了特斯拉，其他制造商也使用了融合传感技术，将激光雷达、毫米波雷达和camera结合起来。可以得出结论，使用radar和视觉融合的传感解决方案是当前自主驾驶车辆障碍物检测领域的主流趋势，主要因为radar和camera具有互补的特性。

领域方案传感器部署汇总：

Lidar、Radar、Camera三类传感器性能对比：

毫米波雷达作为自动驾驶车辆上常见和必要的传感器，具有远距离探测、低成本和动态目标可探测性的特点。由于这些优点，车辆的感应能力和安全性得到了提高[37]。与激光雷达相比，毫米波雷达的优势主要体现在应对恶劣天气和低部署成本方面[36]。此外，它还有以下优点：

毫米波雷达可以探测250米范围内的障碍物，这对自主驾驶的安全至关重要，而激光雷达的探测范围在150米范围内[41]。
毫米波雷达可以基于多普勒效应测量目标车辆的相对速度，分辨率为0.1m/s，这对于自主驾驶中的车辆决策至关重要[41]。

与毫米波雷达相比，激光雷达具有以下优点[38]、[39]：

激光雷达比毫米波雷达具有相对较高的角度分辨率和检测精度。此外，毫米波雷达数据更稀疏；
激光雷达的测量包含语义信息，并满足先进自主驾驶的感知要求，而毫米波雷达缺乏这一点；
无法从毫米波雷达测量中完全滤除杂波，导致雷达信号处理中出现错误；

radar是探测距离和径向速度的最佳传感器。它具有“全天候”功能，特别是考虑到它在夜间仍能正常工作。然而，雷达无法区分颜色，目标分类能力较差[36]。camera具有良好的颜色感知和分类能力，角度分辨率能力不弱于激光雷达[36]。然而，它们在估计速度和距离方面受到限制[40]。此外，图像处理依赖于车载芯片算力，而不需要毫米波雷达的信息处理。充分利用雷达感应信息可以大大节省计算资源[36]。通过比较radar和摄像机的特性，可以发现它们之间有许多互补的特性。因此，将radar和视觉融合感知技术应用于障碍物检测领域，可以有效提高感知精度，增强自主车辆的目标检测能力。毫米波雷达或激光雷达和视觉融合都很有用。

传感器标定

不同传感器的空间位置和采样频率不同，同一目标的不同传感器的传感信息可能不匹配。因此，校准不同传感器的传感信息非常必要，毫米波雷达返回的检测信息是雷达点，camera接收视觉图像。以nuScenes[29]的相机和毫米波雷达数据作为示例。该数据集提供的数据已通过帧同步处理，因此不需要时间同步，下图效果可通过空间坐标变换获得。雷达点的RGB值由横向速度、纵向速度和距离这三个物理量转换而来，雷达点的颜色表示与雷达点对应的对象的物理状态。一般而言，传感器校准包括坐标标定[42]–[48]、雷达点滤波[43]、[45]和误差校准[49]–[51]。

坐标系标定

坐标标定的目的是将雷达点与图像中的目标进行匹配。对于坐标标定，最常用的方法分为坐标变换方法[45]、[46]、传感器验证方法[42]、[44]、[47]和基于视觉的方法[43]、[52]。

坐标变换法通过矩阵运算将同一坐标系下的雷达信息和视觉信息统一起来。[46]根据毫米波雷达和视觉传感器的空间位置坐标，通过坐标变换方法完成空间校准。针对不同传感器采样率引起的时间不一致性，采用线程同步方法实现图像帧和毫米波雷达数据的同时采集。[45]使用了基于伪逆的点对齐方法，该方法使用最小二乘法获得坐标变换矩阵。传统的坐标变换无法生成目标的精确位置，给最终结果带来误差。[53]Wang等人提出了一个校准实验，在不使用专用工具和雷达反射强度的情况下，将真实坐标投影到雷达探测图中，这削弱了对校准误差的依赖性。

传感器验证方法利用同一物体上不同传感器的检测信息相互校准多个传感器。在[42]中，传感器验证包括两个步骤。首先通过雷达生成目标列表，然后通过视觉信息对列表进行验证。[47]经过radar坐标变换后，首先粗略搜索图像，然后与雷达信息进行比较。比较结果将目标分为两类：匹配目标和非匹配目标。在[44]中，Streubel等人设计了一种融合时隙方法，匹配雷达和视觉在同一时隙中检测到的对象。

基于视觉的方法：[52]使用运动立体技术实现雷达目标和图像目标的匹配。[43]Huang等人使用自适应背景减法来检测图像中的运动目标，生成候选区域，并通过判断目标是否存在来验证目标雷达点是否位于候选区域。

Radar点滤波

雷达点滤波的目的是滤除噪声和无用的检测结果，以避免这些雷达点造成的误判。[45]Guo等人提出了一种利用帧内聚类和帧间跟踪信息进行噪声滤波和有效目标提取的方法。在[43]中，通过毫米波雷达获得的速度和角速度信息对雷达点进行滤波。然后对无效雷达点进行滤波，从而减少树木和桥梁等固定目标对毫米波雷达的影响。

误差校准

由于传感器或数学计算中的误差，校准的雷达点可能存在误差。一些文章提出了纠正这些错误的方法。在[50]中，提出了一种基于交互式微调的方法，对投影在视觉图像上的雷达点进行最终校正。[51]中的作者提出了一种改进的扩展卡尔曼滤波（EKF）算法，用于建模不同传感器的测量误差。在[49]中，分析了各种坐标对检测结果的影响，并提出了一种半积分笛卡尔坐标表示方法，将所有信息转换为随宿主车辆移动的坐标系。目前使用开源数据集时，不需要进行误差校准。然而，如果数据集是自制的，则雷达滤波和纠错是必要的技术步骤。

基于传感器融合的检测任务

一般来说，毫米波雷达和视觉融合分为三个层次，包括数据层、决策层和特征层。数据级融合是毫米波雷达和摄像机检测到的数据的融合，具有最小的数据丢失和最高的可靠性。决策级融合是毫米波雷达和摄像机检测结果的融合。特征级融合需要提取雷达特征信息，然后将其与图像特征融合。

数据层融合

数据级融合是一种成熟的融合方案，目前还不是主流的研究趋势。然而，其融合不同传感器信息的想法仍有参考价值。如下表所示，数据级融合首先基于雷达点[42]、[45]、[54]、[55]生成感兴趣区域（ROI）。然后根据ROI提取视觉图像的对应区域。最后，使用特征提取器和分类器对这些图像进行目标检测[45]、[47]、[53]、[55]–[61]。

一些文献使用神经网络进行目标检测和分类[61]、[62]。对于数据级融合，有效雷达点的数量直接影响最终的检测结果。如果图像的某一部分中没有雷达点，则该部分将被忽略。该方案缩小了目标检测的搜索空间，节省了计算资源，同时留下了安全隐患。数据级融合过程如图4所示。

ROI的生成

ROI是图像中的选定区域，与纯图像处理方案相比，数据级融合方案使用雷达点生成ROI，这可以显著提高ROI生成的速度[42]。初始ROI的大小由障碍物和毫米波雷达之间的距离决定[45]。

目标检测

由于图像中目标位置和大小的不确定性，基于视觉的目标检测通常采用滑动窗口和多尺度策略，产生大量候选框，导致检测效率低。毫米波雷达与视觉融合方案避免了滑动窗口方法，降低了计算成本，提高了检测效率。

决策层融合

决策级融合是目前主流的融合方案，该过程如下表所示：

雷达的优势在于纵向距离，视觉传感器的优势在于水平视野。决策级融合可以兼顾这两方面的优点，充分利用传感信息。决策级融合滤波算法的挑战是建模两种检测信息的联合概率密度函数，决策级融合主要包括两个步骤：传感信息处理[65]–[69]、[71]和决策融合[66]、[72]–[78]、[84]。

传感信息处理

传感信息的处理包括雷达信息和视觉信息。雷达探测结果生成一个物体列表，并包含物体的速度和距离等信息[65]、[66]；视觉信息处理对图像执行目标检测算法，定位2D位置。

决策融合

车辆检测的决策级融合融合不同传感器的检测结果，主流滤波算法应用贝叶斯理论[72]、[73]、卡尔曼滤波框架[74]–[76]和Dempster-Shafer理论[66]。在一些文献中，雷达检测目标列表用于验证视觉检测结果[77]、[78]，此外，参考文献[84]提出了运动立体算法来调整和细化最终检测结果。

基于贝叶斯理论的融合方法

参考文献[72]提出了一种基于贝叶斯理论的方法，通过使用概率推理方法来解决多传感器数据融合问题，称为贝叶斯规划。当添加新的传感器时，传统的多传感器融合算法不再适用。融合算法在[73]中进行了模块化和推广，并提出了一种基于贝叶斯网络的动态融合方案，以提高每个融合算法的可重用性。

基于卡尔曼滤波的融合方法

[74]基于李群的EKF框架，提出了一种使用特殊欧几里德群的决策级融合滤波器。参考文献[75]提出了一种融合框架，可以在3D空间和2D图像平面中同时跟踪检测对象。类似于卡尔曼滤波器的不确定性驱动机制用于均衡不同质量的传感结果。在[76]中，雷达首先检测到给定图像，以粗略搜索目标。然后使用经过训练的点检测器来获得对象的边界框。采用基于卡尔曼滤波的信息融合方法，证明了集中式和分散式信息融合方案的功能等价性。

基于Dempster-Shafer理论的融合方法

参考文献[66]提出了基于Dempster-Shafer理论的决策级融合，将多个传感器的检测列表作为输入，使用其中一个作为临时evidence 网格，并将其与当前evidence 网格融合，最后执行聚类处理，在evidence 网格中确定了目标。

基于雷达验证的融合方法

参考文献[77]将视觉检测和雷达检测生成的目标列表重叠，以生成唯一的车辆列表。雷达数据用于验证视觉检测结果，如果存在与雷达数据中的视觉检测结果匹配的目标，则蓝色框将被标记为强假设。否则，如果没有目标，它不会被丢弃：一个绿框将被标记为弱假设。参考文献[78]提出了一种多目标跟踪（MTT）算法，该算法可以通过评估雷达散射中心的跟踪分数来实时校正被跟踪目标列表。利用立体视觉信息拟合目标车辆的轮廓，并利用与目标车辆匹配的雷达目标校正其位置。

特征级融合

特征级融合是近年来出现的一种新方案，该过程如下表所示：

在特征级融合方法[79]–[83]中，使用额外的雷达输入分支是一种常见的方法，基于CNN的目标检测模型可以有效地学习图像特征信息。通过将雷达检测信息转化为图像形式，检测模型可以同时学习雷达和视觉特征信息，实现特征级融合，特征级融合过程如下图所示：

基于CNN的融合框架

雷达特征提取的目的是变换雷达信息，因为雷达信息不能与图像信息直接融合。雷达特征提取主要采用将雷达点转换到图像平面生成雷达图像的方法。多通道变换后的雷达图像包含雷达检测到的所有环境特征，每个通道表示一个物理量，如距离、纵向速度、横向速度等。参考文献[83]提出了一种新的条件多生成器生成对抗网络（CMGGAN），该网络利用雷达传感器的测量数据生成类似camera图像，包括雷达传感器检测到的所有环境特征。[80]提出了一种新的雷达特征描述方法，称为雷达稀疏图像，雷达稀疏图像是416×416三通道图像，其大小直接对应于视觉图像的大小，这三个通道包含雷达点速度和深度特征信息。在[82]中，Chang等人将雷达点处的深度、水平和垂直信息转换为不同通道的真实像素值。对于没有雷达点的区域，他们将像素值设置为0，并使用以雷达点为中心的圆圈渲染雷达图像。在[81]中，考虑到雷达检测结果中缺乏高度信息，Nobis等人在垂直方向上拉伸投影雷达点，以便更好地将其与图像整合。雷达信息的特征以像素值的形式存储在增强图像中。此外，还提出了一种地面真值噪声滤波器来滤除无效雷达点。

特征融合

基本特征融合方法可分为两类：级联和元素相加。前者将雷达特征矩阵和图像特征矩阵连接成多通道矩阵，而后者将两个矩阵合并成一个矩阵。 whaosoft aiot http://143ai.com

[79]设置了两种融合方法：级联和逐元素相加，实验结果表明这两种融合方式都提高了检测性能。按逐元素添加方法在手动标注的测试集上性能更好，而级联方法在生成的测试集中性能更好。[82]中提出了一种用于传感器特征融合的新块，称为空间注意融合（SAF）。使用SAF块生成注意力权重矩阵，以融合雷达和视觉特征。同时，[82]将SAF方法与三种逐元素加法、乘法和级联方法进行了比较，结果表明，SAF具有最佳性能。此外，[82]在Faster R-CNN上进行了泛化实验，SAF模型也提高了检测性能。

挑战和未来趋势

Challenges

对于目标检测任务，目前的研究成果已经取得了优异的性能，然而，这些成果大多是二维目标检测。在真实的自动驾驶场景中，复杂的交通环境通常需要3D目标检测来更准确地感知环境信息，当前3D对象检测网络的性能远低于2D检测的水平。因此，提高三维目标检测的精度不仅是自动驾驶领域的一项挑战，也是目标检测任务中的一项重大挑战。

毫米波雷达和视觉的融合仍然存在挑战，这是本文的重点。毫米波雷达的最大缺点是雷达特征稀疏，与视觉图像相比，毫米波雷达提供的信息非常少，无法带来显著的性能改进。此外，毫米波雷达和视觉的特征信息是否可以进一步整合，以及它们之间的相关互信息是否已经挖掘出来，还有待研究。因此，毫米波雷达视觉融合仍然面临两大挑战：稀疏感知信息和更有效的融合，这也是多传感器融合领域的两大挑战！

Future Trends

作者认为有三个主要趋势，其中之一是3D对象检测：提高三维目标检测的精度将是一个主要的研究趋势。其余两个趋势涉及雷达视觉融合。一方面，有必要整合新的传感信息，即增加新的传感器，如激光雷达，它在自动驾驶方面取得了优异的性能；另一方面，有必要探索传感信息融合的新方法，如多模态融合。

基于多传感器融合的三维目标检测还在基于视觉的目标检测网络的基础上增加了雷达输入分支和信息融合模块。参考文献[91]使用了一种类似于特征级融合的方案，首先通过2D检测将雷达点绘制成矩形区域，然后执行3D检测。此外，由于激光雷达具有丰富的特征，可以重建物体轮廓，更容易估计三维box，因此，利用激光雷达进行多传感器融合三维物体检测的研究较多。

随着激光雷达成本的降低，配备激光雷达的自动驾驶车辆已成为一种趋势。然而，激光雷达不能替代毫米波雷达，毫米波雷达有其独特的优势。激光雷达具有更高的探测精度，它们相辅相成，激光雷达和视觉的融合在自动驾驶中正变得很有价值。无论是毫米波雷达还是激光雷达，其传感信息在不同模式下都是相同的环境信息。雷达感测信息和视觉信息也是不同模态的信息。将雷达视觉融合视为多模态信息融合，可能有更好的解决方案。此外，在自动驾驶领域，数据集提供的毫米波雷达数据是后处理数据。然而，从信息保护的角度来看，后处理雷达数据中包含的信息量必须相对于原始数据丢失。如果将原始雷达检测数据和视觉图像视为两种不同的传感信息模式进行融合，则可以获得更丰富的传感信息。多模态信息融合的挑战在于如何完美地组合不同模态的信息及其携带的噪声，以及如何挖掘相关信息以帮助理解同一事物。

#大模型技术在自动驾驶的应用与影响

深入分析大模型技术在自动驾驶领域的应用和影响

文中首先概述了大模型技术的发展历程，自动驾驶模型的迭代路径，以及大模型在自动驾驶行业中的作用。
接着，详细介绍了大模型的基本定义、基础功能和关键技术，特别是Transformer注意力机制和预训练-微调范式。
文章还介绍了大模型在任务适配性、模型变革和应用前景方面的潜力。
在自动驾驶技术的部分，详细回顾了从CNN到RNN、GAN，再到BEV和Transformer结合的技术迭代路径，以及占用网络模型的应用。
最后，文章重点讨论了大模型如何在自动驾驶的感知、预测和决策层面提供赋能，突出了其在该领域的重要性和影响力。

一、概述

1.1 大模型技术发展历程

大模型泛指具有数十亿甚至上百亿参数的深度学习模型，而大语言模型是大模型的一个典型分支（以ChatGPT为代表）

Transformer架构的提出引入了注意力机制，突破了RNN和CNN处理长序列的固有局限，使语言模型能在大规模语料上得到丰富的语言知识预训练：

一方面，开启了大语言模型快速发展的新时代；
另一方面奠定了大模型技术实现的基础，为其他领域模型通过增大参数量提升模型效果提供了参考思路。

复杂性、高维度、多样性和个性化要求使得大型模型在自动驾驶、量化交易、医疗诊断和图像分析、自然语言处理和智能对话任务上更易获得出色的建模能力。

1.2 自动驾驶模型迭代路径

自动驾驶算法模块可分为感知、决策和规划控制三个环节。其中感知模块为关键的组成部分，经历了多样化的模型迭代：

CNN（2011-2016）—— RNN+GAN（2016-2018）—— BEV（2018-2020）—— Transformer+BEV（2020至今）—— 占用网络（2022至今）

可以看一下特斯拉智能驾驶迭代历程：

2020年重构自动驾驶算法，引入BEV+Transformer取代传统的2D+CNN算法，并采用特征级融合取代后融合，自动标注取代人工标注。

2022年算法中引入时序网络，并将BEV升级为占用网络(Occupancy Network)。
2023年8月，端到端AI自动驾驶系统FSD Beta V12首次公开亮相，完全依靠车载摄像头和神经网络来识别道路和交通情况，并做出相应的决策。

1.3 大模型对自动驾驶行业的赋能与影响

自动驾驶领域的大模型发展相对大语言模型滞后，大约始于2019年，吸取了GPT等模型成功经验。

大模型的应用加速模型端的成熟，为L3/L4级别的自动驾驶技术落地提供了更加明确的预期。

可从成本、技术、监管与安全四个层面对于L3及以上级别自动驾驶落地的展望，其中：

成本仍有下降空间
技术的发展仍将沿着算法和硬件两条主线并进
法规政策还在逐步完善之中
安全性成为自动驾驶汽车实现商业化落地必不可少的重要因素

各主机厂自2021年开始加速对L2+自动驾驶的布局，且预计在2024年左右实现L2++（接近L3）或者更高级别的自动驾驶功能的落地，其中政策有望成为主要催化。

二、大模型技术发展历程

2.1 大模型基本定义与基础功能

大模型基本定义：由大语言模型到泛在的大模型大模型主要指具有数十亿甚至上百亿参数的深度学习模型，比较有代表性的是大型语言模型（ Large Language Models，比如最近大热的ChatGPT）。

大型语言模型是一种深度学习算法，可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。

大语言模型在很大程度上代表了一类称为Transformer网络的深度学习架构。Transformer模型是一个神经网络，通过跟踪序列数据中的关系（像这句话中的词语）来学习上下文和含义。

Transformer架构的提出，开启了大语言模型快速发展的新时代：

谷歌的BERT首先证明了预训练模型的强大潜力
OpenAI的GPT系列及Anthropic的Claude等继续探索语言模型技术的边界。越来越大规模的模型不断刷新自然语言处理的技术状态。这些模型拥有数百亿或上千亿参数，可以捕捉语言的复杂语义关系，并进行人类级别的语言交互。

下图是大模型的发展历程：

2.2 大模型的基础——Transformer注意力机制

注意力机制：Transformer的核心创新
创新点1：Transformer模型最大的创新在于提出了注意力机制，这一机制极大地改进了模型学习远距离依赖关系的能力，突破了传统RNN和CNN在处理长序列数据时的局限。

创新点2：在Transformer出现之前，自然语言处理一般使用RNN或CNN来建模语义信息。但RNN和CNN均面临学习远距离依赖关系的困难：

RNN的序列处理结构使较早时刻的信息到后期会衰减；
而CNN的局部感知也限制了捕捉全局语义信息。
这使RNN和CNN在处理长序列时，往往难以充分学习词语之间的远距离依赖。

创新点3：Transformer注意力机制突破了RNN和CNN处理长序列的固有局限，使语言模型能在大规模语料上得到丰富的语言知识预训练。该模块化、可扩展的模型结构也便于通过增加模块数量来扩大模型规模和表达能力，为实现超大参数量提供了可行路径。

Transformer解决了传统模型的长序列处理难题，并给出了可无限扩展的结构，奠定了大模型技术实现的双重基础。

下面是Transformer结构图：

2.3 大模型的预训练-微调范式

大模型代表了一种新的预训练-微调范式，其核心是先用大规模数据集预训练一个极大的参数模型，然后微调应用到具体任务。

这与传统的单任务训练形成了对比，标志着方法论的重大变革。

参数量的倍数增长是大模型最根本的特点，从早期模型的百万量级，发展到现在的十亿甚至百亿量级，实现了与以往数量级的突破。

Transformer架构的提出开启了NLP模型设计的新纪元，它引入了自注意力机制和并行计算思想，极大地提高了模型处理长距离依赖关系的能力，为后续大模型的发展奠定了基础。

正是由于Transformer架构的成功，研究者们意识到模型的架构设计在处理复杂任务和大规模数据中发挥着举足轻重的作用。这一认识激发了研究者进一步扩大模型参数量的兴趣。虽然之前也曾有过扩大参数量的尝试，但因受限于当时模型本身的记忆力等能力，提高参数数量后模型的改进并不明显。

GPT-3的成功充分验证了适度增大参数量能显著提升模型的泛化能力和适应性，由此掀起了大模型研究的热潮。

它凭借过千亿参数量和强大的语言生成能力，成为参数化模型的典范。GPT-3在许多NLP任务上表现亮眼，甚至在少样本或零样本学习中也能取得惊人的效果。

增大参数量的优点：

更好的表示能力：增大参数量使模型能够更好地学习数据中的复杂关系和模式，从而提高模型的表示能力，使其在不同任务上表现更出色。
泛化能力和迁移学习：大模型能够从一个领域学习到的知识迁移到另一个领域，实现更好的迁移学习效果，这对于数据稀缺的任务尤其有价值。
零样本学习：增大参数量可以使模型更好地利用已有的知识和模式，从而在零样本学习中取得更好的效果，即使只有很少的示例也能完成任务。
创新和探索：大模型的强大能力可以帮助人们进行更多创新性的实验和探索，挖掘出更多数据中的隐藏信息。

2.4 探索大模型:任务适配性、模型变革与应用前景

与早期的人工智能模型相比，大型模型在参数量上取得了质的飞跃，导致了在复杂任务的建模能力整体上的提升：

1）学习能力增强：以应对更复杂的任务；
2）泛化能力加强：以实现更广泛的适用性；
3）鲁棒性提高；
4）具备更高层次认知互动能力：可模拟某些人类能力等。

复杂性、高维度、多样性和个性化要求使得大型模型在某些任务上更易获得出色的建模能力：

多模态传感器数据的融合分析，尤其涉及到时序数据的处理，如自动驾驶
复杂且动态的目标，需要模型从大规模多样化的数据模式中学习，如金融领域中的量化交易策略优化
涉及异构数据源的高维输入空间，如医学图像和报告
需要为不同用户或场景进行个性化建模的定制化需求，如智能助理

三、自动驾驶技术迭代路径

3.1 自动驾驶算法核心模块概览

自动驾驶算法模块可分为感知、决策和规划控制三个环节，其中感知模块为关键的组成部分

感知模块：感知模块负责解析并理解自动驾驶所处车辆周边的交通环境，是实现自动驾驶的基础和前提，感知模块的精准程度，直接影响并制约着自动驾驶系统的整体安全性和可靠性。

感知模块主要通过摄像头、激光雷达、毫米波雷达等各类传感器获取输入数据，然后通过深度学习等算法，准确解析出道路标线、其他车辆、行人、交通灯、路标等场景元素，以供后续流程使用。

决策和规划控制：与感知模块相比，决策和规划控制等模块的作用更为单一和被动。

这些模块主要依据感知模块输出的环境理解结果，通过算法决策生成驾驶策略，并实时规划车辆的运动轨迹和速度，最终转换为控制命令，以实现自动驾驶。

但是，大模型在车端赋能主要作用于感知和预测环节，逐渐向决策层渗透。

3.2 CNN

2011-2016：CNN引发自动驾驶领域的首次革新浪潮

随着深度学习和计算能力的提升，卷积神经网络(CNN)在图像识别任务上的出色表现引发了自动驾驶领域的首次革新浪潮。

2011年，IJCNN的论文《Traffic Sign Recognition with Multi-Scale Convolutional Networks》展示了CNN在交通标志识别方面的潜力；
2016年，Nvidia团队发表的《End-to-End Deep Learning for Self-Driving Cars》成为最早将CNN应用于端到端自动驾驶的工作之一。

这是一个两阶段的卷积神经网络架构，输入通过两个卷积和子采样阶段进行前馈处理，最终通过线性分类器进行分类。

CNN极大提升了自动驾驶车辆的环境感知能力

一方面，CNN在图像识别与处理方面的卓越表现，使车辆能够准确分析道路、交通标志、行人与其他车辆；
另一方面，CNN有效处理多种传感器数据的优势，实现了图像、激光雷达等数据的融合，提供全面的环境认知。叠加计算效率的提高，CNN模型进一步获得了实时进行复杂的感知与决策的能力。

但CNN自动驾驶也存在一定局限性：

1）需要大量标注驾驶数据进行训练，而获取足够多样化数据具有难度；
2）泛化性能有待提高；
3）鲁棒性也需要经受更复杂环境的考验；
4）时序任务处理能力：相比较而言RNN等其他模型可能更占优势。

3.3 RNN、GAN

2016-2018：RNN和GAN被广泛应用到自动驾驶相关的研究，推动自动驾驶在对应时间区间内快速发展

RNN相较于CNN更适合处理时间序列数据：RNN的循环结构可以建模时间上的动态变化，这对处理自动驾驶中的轨迹预测、行为分析等时序任务非常有用。例如在目标跟踪、多智能体互动建模等领域，RNN和LSTM（RNN的改进版本）带来了巨大突破，可以预测车辆未来的运动轨迹，为决策和规划提供支持。

GAN的生成能力缓解自动驾驶系统训练数据不足的问题：GAN可以学习复杂分布，生成高质量的合成数据，为自动驾驶领域带来了新思路，用于缓解自动驾驶系统训练数据不足的问题。例如GAN可以生成模拟的传感器数据、场景信息，测试自动驾驶算法的鲁棒性，也可以用于交互式模拟场景生成。

RNN+GAN，可以实现端到端的行为预测和运动规划：RNN负责时序建模，GAN负责数据生成，两者相互协同，可以为自动驾驶系统提供更全面和可靠的环境感知、状态预测和决策支持。

这是融合了LSTM和GAN的模型架构示例。

RNN和GAN仍未解决的问题：

RNN类模型：长期时序建模能力仍较弱，特别是在处理较长的时间序列数据时可能出现梯度消失或梯度爆炸的问题，限制了它在某些自动驾驶任务上的应用效果。
GAN模型：生成的数据质量难以控制，很难达到足够逼真的程度。此外，尽管GAN可以生成合成数据，但在实际应用中，它在自动驾驶领域的具体应用仍相对有限。
样本效率低：RNN和GAN在样本效率方面仍较低，通常需要大量的真实场景数据来训练和优化模型。而且这些模型难以解释，缺乏对内部决策过程的清晰解释，同时模型的稳定性和可靠性也是需要进一步解决的问题之一。

RNN和GAN在自动驾驶领域应用趋冷的原因：

效率和实时性需求：自动驾驶系统需要在实时性要求较高的情况下做出决策和控制。传统的RNN在处理序列数据时，存在计算效率较低的问题，处理实时感知和决策任务能力有限。
复杂性和泛化能力：自动驾驶涉及复杂多变的交通场景和环境，需要具备强大的泛化能力。然而，传统的RNN可能在处理复杂的时序数据时遇到困难，而无法很好地适应各种交通情况。
新兴技术的兴起：随着深度学习领域的发展，新的模型架构和算法不断涌现，如Transformer架构、强化学习等，这些新技术在处理感知、决策和规划等任务方面可能更加高效和适用。

3.4 BEV

2018-2020：基于鸟瞰视角(BEV)的模型在自动驾驶领域获得了广泛的研究和应用

BEV模型的核心思想是将车辆周围的三维环境数据（如来自激光雷达和摄像头的点云、图像等数据）投影到俯视平面上生成二维的鸟瞰图。这种将三维信息“压平”成二维表示的方式，为自动驾驶系统的环境感知和理解带来了重要优势：

鸟瞰图提供了比直接的原始传感器数据更加直观和信息丰富的环境表示，可以更清晰地观察道路、车辆、行人、标志等元素的位置和关系，增强自动驾驶对复杂环境的感知能力
全局的俯视视角更有利于路径规划和避障系统进行决策，根据道路和交通状况规划更合理稳定的路径
BEV模型可以将来自不同传感器的输入数据统一到一个共享表示中，为系统提供更加一致和全面的环境信息

这是BirdNet 3D 对象检测框架，网络的三个输出是：类别（绿色）、2d 边界框（蓝色）和偏航角（红色）。

但是，BEV模型也存在一些问题亟待解决：

从原始三维数据生成BEV表示需要进行大量坐标变换和数据处理，增加了计算量和对硬件的要求
信息损失问题，三维信息投影到二维时难免会损失一些细节，如遮挡关系等
不同传感器到BEV坐标系的转换也需要进行复杂的标定和校准
需要研究如何有效融合各种异构数据源，以生成更加准确和完整的BEV

3.5 Transformer+BEV

2020年以来， Transformer+BEV结合正在成为自动驾驶领域的重要共识，推动自动驾驶技术进入崭新发展阶段

将Transformer模型与BEV(鸟瞰视角)表示相结合的方法，正在成为自动驾驶领域的重要共识，推动完全自主驾驶的实现

一方面，BEV可以高效表达自动驾驶系统周围的丰富空间信息；
另一方面，Transformer在处理序列数据和复杂上下文关系方面展现了独特优势，在自然语言处理等领域得到成功应用。两者结合可以充分利用BEV提供的环境空间信息，以及Transformer在多源异构数据建模方面的能力，实现更精确的环境感知、更长远的运动规划和更全局化的决策。

特斯拉率先引入BEV+Tranformer大模型，与传统2D+CNN小模型相比，大模型的优势主要在于：

1）提高感知能力：BEV将激光雷达、雷达和相机等多模态数据融合在同一平面上，可以提供全局视角并消除数据之间的遮挡和重叠问题，提高物体检测和跟踪的精度；
2）提高泛化能力：Transformer模型提取特征函数，通过注意力机制寻找事物本身的内在关系，使智能驾驶学会总结归纳而不是机械式学习。主流车企及自动驾驶企业均已布局BEV+Transformer，大模型成为自动驾驶算法的主流趋势。

下面是Transformer+BEV的示例框图：

(a) 对象对齐时间融合：首先根据车辆自身的移动情况，把当前时刻(t时刻)的鸟瞰视角地图变形调整成上一时刻(t-1 时刻)的样子。这样就可以根据对象在上一时刻的位置，结合速度预测出它当前的位置，从而实现对象在不同时刻地图上的融合。

(b) 对象聚焦多视图采样：首先在三维空间预设一些点，然后把这些点投影到图像上的特征上。这样不仅可以在整个高度范围采样，还可以对某些主要对象按照自适应和聚焦的方式，在它们所处的局部空间区域采样更多点。

(c) 对象通知查询增强：在编码器处理图像特征后，添加热图的监督信息。同时用检测到对象高置信度位置对应的点来替换掉原本预设要查询的一些点。

下面是Transformer+BEV的示例框图2：

GPT的出现对Transformer+BEV模型的产生起到了重要影响

GPT的成功表明了Transformer模型的潜力，促使更多研究者将Transformer应用到计算机视觉和自动驾驶领域，产生了 Transformer+BEV的创新做法。
GPT的预训练思想为Transformer+BEV的预训练和迁移学习提供了借鉴，可以通过预训练捕捉语义信息，然后迁移应用。
OpenAI公开的代码和模型也加速了Transformer类模型在各领域的研究进程。

当前Transformer+BEV模型受关注，主要基于它综合了Transformer和BEV各自的优势

Transformer擅长处理序列数据，捕捉语义信息；而BEV提供场景整体观，有利解析空间关系。两者组合可实现互补，增强对复杂场景的理解表达。
自动驾驶数据积累为训练大模型奠定基础。大数据支持学习更复杂特征，提升环境感知精度，也使端到端学习成为可能。
提升安全性和泛化能力仍是自动驾驶核心难题。目前阶段Transformer+BEV较好地结合语义理解和多视角建模，可处理相对不常见、复杂或者挑战性的交通场景或环境，具有很大潜力。

3.6 占用网络模型

2022年，自动驾驶系统中使用了占用网络模型，实现了对道路场景的高效建模

占用网络模型

占用网络是特斯拉在2022年应用到自动驾驶感知的一种技术，相较于BEV可以更精准地还原自动驾驶汽车行驶周围3D环境，提升车辆的环境感知能力。
占用网络包含两部分：一个编码器学习丰富语义特征，一个解码器可以生成三维场景表达。
特斯拉使用车载摄像头采集的大量行车数据，训练占用网络模型。解码器部分能够复原和想象各种场景，增强异常情况下的感知棒性。
占用网络技术使特斯拉可以充分利用非标注数据，有效补充标注数据集的不足。这对于提升自动驾驶安全性、减少交通事故具有重要意义。特斯拉正在持续改进该技术在自动驾驶系统中的集成应用。

特斯拉在2023年AI Day公开了occupancy network（占用网络）模型，基于学习进行三维重建，意图为更精准地还原自动驾驶汽车行驶周围3D环境，可视作BEV视图的升华迭代：

BEV+Transformer的不足：鸟瞰图为2D图像，会缺失一些空间高度信息，无法真实反映物体在3D空间的实际占用体积，故而在BEV中更关心静止物体（如路沿、车道线等），而空间目标的识别（如物体3D结构）难以识别
占用网络：现存三维表示方法（体素、网格、点云）在储存、结构和是否利于学习方面均不够完全理想，而占用网络基于学习将三维曲面表示为深度神经网络分类器的连续决策边界，可以在没有激光雷达提供点云数据的情况下对3D环境进行重建，且相较于激光雷达还可以更好地将感知到的3D几何信息与语义信息融合，得到更加准确的三维场景信息

华为ADS 2.0进一步升级GOD 网络，道路拓扑推理网络进一步增强，类似于特斯拉的占用网络。

GOD 2.0(通用障碍物检测网络， General Obstacle Detection)障碍物识别无上限，障碍物识别率达到99.9%；
RCR2.0能识别更多路，感知面积达到2.5个足球场，道路拓扑实时生成。
2023年12月，搭载ADS 2.0的问界新M7可实现全国无高精地图的高阶智能驾驶。

对比BEV效果，下面BEV鸟瞰视图

下面是占用网络3D视图：

四、大模型对自动驾驶行业的赋能

4.1 自动驾驶的大模型

以GPT为代表的大模型通常包含亿级甚至百亿级参数，采用Transformer结构进行分布式训练，以提升模型能力。

GPT的成功激发了：自动驾驶研究者利用类似架构进行端到端学习，甚至涌现出专为自动驾驶设计的预训练模型。这些努力为自动驾驶行业带来新思路，大模型通过强大的数据分析和模式识别能力，增强了自动驾驶系统的安全性、效率和用户体验，实现了更准确的环境感知、智能决策。

大模型的应用加速模型端的成熟，为L3/L4级别的自动驾驶技术落地提供了更加明确的预期

模型的成熟使得自动驾驶系统更加稳定和可靠，为商业化应用奠定了基础。随着深度学习和神经网络技术的迅速发展，模型在感知、决策和控制等方面取得了显著进展，向着高效地处理大量传感器数据，准确识别交通标志、行人、车辆等、实现环境感知的方向发展。此外，模型也能够辅助实时路径规划和决策制定，使车辆能够在复杂的交通环境中安全行驶。

大模型的应用为L3/L4级别的自动驾驶技术落地提供了更加明确的预期，尤其特斯拉在前沿技术领域的探索，正在成为实现L3/L4级别自动驾驶落地的风向标。特斯拉提出的Transformer+BEV+占用网络算法让车辆能够更精准地理解复杂的交通环境，为L3/L4级别的自动驾驶系统提供更强的环境感知能力，从而在城市道路和高速公路等特定场景中更自信地行驶。

国内重要自动驾驶政策节选

安全性自动驾驶汽车实现商业化落地必不可少的重要因素

为保证自动驾驶系统的安全可靠，按照国家监管要求，自动驾驶车辆必须经过5000公里以上的封闭场地训练评估，且测试驾驶员须通过不少于50小时培训，并通过车辆安全技术检验后方可申请上路测试资格。目前我国智能网联汽车道路测试总里程已超7000万公里，我们预计L3级及以上自动驾驶汽车开放个人使用上路试点区域仍需一定的时间才能实现。

汽车通信安全和数据安全也需达到国标或相关条例要求。我们预计未来中国会参考欧美国家实践，进一步细化安全要求，加强相关法规制度建设，如制定自动驾驶汽车安全评估标准、明确自动驾驶系统开发生命周期各阶段的安全保障要求、建立自动驾驶汽车事故责任认定机制等。

部分自动驾驶汽车安全标准：

4.2 车端赋能主要作用于感知和预测环节，逐渐向决策层渗透

大模型在自动驾驶中的应用简单来说，就是把整车采集到的数据回传到云端，通过云端部署的大模型，对数据进行相近的训练。 whaosoft aiot http://143ai.com

大模型主要作用于自动驾驶的感知和预测环节。

在感知层，可以利用Transformer模型对BEV数据进行特征提取，实现对障碍物的监测和定位；
预测层基于感知模块的输出，利用Transformer模型捕捉学习交通参与者的运动模式和历史轨迹数据，预测他们未来行为和轨迹。

未来将驱动驾驶策略生成逐渐从规则驱动向数据驱动转变。规划决策层的驾驶策略的生成有两种方式：

1）基于数据驱动的深度学习算法；

2）基于规则驱动（出于安全考虑，目前普遍采取基于规则生成驾驶策略，但随着自动驾驶等级的提升及应用场景的不断拓展，基于规则的规控算法存在较多Corner Case处理局限性）。

结合车辆动力学，可利用Transformer模型生成合适的驾驶策略：

将动态环境、路况信息、车辆状态等数据整合到模型中，Transformer多头注意力机制有效平衡不同信息源之间的权重，以便快速在复杂环境中做出合理决策。

本文内容来自以下资料：

AI+行业系列之智能驾驶：自动驾驶的“大模型”时代
智能汽车行业专题研究：大模型应用下自动驾驶赛道将有哪些变化
2023年行业大模型标准体系及能力架构研究报告
人工智能行业专题报告：多模态AI研究框架
AI大时代系列报告之一（基础篇）：大模型与算力共振，奇点时刻到来
等等......

#2023国内自动驾驶公司

1. tire1厂商，供应链企业

这部分公司的划分原则是tire1的供应链厂商，结合我个人了解到的技术积累情况。以上，难免有失偏颇，还请见谅！

持续布局企业

这部分企业是国内比较早开始从事自动驾驶方面研究的，并且在硬件和软件方面都取得了不错的进展。入职可以快速提高自身自动驾驶开发能力，另外跳槽的下家也会基于更高的工资上浮。
华为

入职理由：华为的技术研发能力毋庸置疑，虽然最近华为自动驾驶技术才被外界所知，但其实内部已经进行了很长时间的技术预研和储备。在硬件领域，华为比国内的所有企业都有很大的优势，也是目前国内最有希望实现国内自动驾驶技术软硬一体化解决方案的企业。目前华为对外释放的消息是要给企业提供自动驾驶解决方案的tire1厂商。

曾用名：华为车BU
入局时间：2015年底
团队背景：2012实验室，秦通等。
自动驾驶等级：L2,L3,L4
代表产品：MDC，赛力斯，问界M5等。
融资情况：无
推荐评分：8.0

百度apollo

入职理由：魏则西事件后，很多网友喷百度没有底线，只会卖假药的营销公司。但其实百度在自动驾驶技术上的投资要早于绝大部分企业。百度的apollo技术开源也增加了国内技术开发者投身自动驾驶领域的热情。毫不夸张的说，百度堪比中国自动驾驶技术的黄埔军校。从百度走出很多大佬支撑这自动驾驶的未来。目前百度定位是tire1厂商，也和国内的整车/零部件企业有很多合作。

曾用名：百度，apollo
入局时间：2015年底
团队背景：陆奇，余凯等前百度大佬。
自动驾驶等级：L2,L3,L4
代表产品：apollo，apollo lite, robotaxi（自动驾驶出租车）。
融资情况：无
推荐评分：8.0

小马智行

入职理由：pony.ai创立时间于2016年。前百度北美研发主任架构师彭军（Stanford PhD）和中国编程“楼教主”楼天城联合创立，二人分别担任小马智行的CEO和CTO。主要产品是PonyPilot+ ，提供的自动驾驶移动出行服务应用（Robotaxi）。与丰田、现代、一汽、广汽、博世等均有合作的tire1厂商。

曾用名：小马智行，pony.ai
入局时间：2016年底
团队背景：楼教主，彭军。
自动驾驶等级：L2,L3,L4
代表产品：PonyPilot+ ，Robotaxi（自动驾驶出租车）和Robotruck（自动驾驶卡车）
融资情况：C
推荐评分：7.5

momenta

入职理由：在中国、德国、日本有全球业务，并已获得上汽集团、通用汽车、梅赛德斯-奔驰、丰田和博世的战略投资。目前定位为tire1厂商。研发能力很强，项目需求很旺。

曾用名：魔门塔，初速度
入局时间：2016年底
团队背景：曹旭东，任少卿（离职）。
自动驾驶等级：L2,L3,L4
代表产品：Mpilot,MSD（Momenta Self Driving）自动驾驶解决方案，自由泊车
融资情况：C+
推荐评分：7.5

图森未来

入职理由：无人卡车，可商用的L4级别（SAE标准）无人驾驶卡车解决方案、高速场景及港口集装箱卡车的无人驾驶运输解决方案。目前已经上市，在自动驾驶的技术积累和创新上为业界做出了很多贡献。在北美路测均取得了很多进展。最近顶会也常常发paper和数据集。

曾用名：图森未来
入局时间：2015年
团队背景：北美团队
自动驾驶等级：L4无人驾驶卡车
代表产品：无人卡车
融资情况：纳斯达克上市
推荐评分：7.5

2. 头部创业，潜力巨大

文远知行

入职理由：主要定位于实现L4级别的自动驾驶。于2017年12月将全球总部落户广州,目前在硅谷和广州都设立了研发中心，团队中70%-80%为来自于海内外知名大厂的优秀研发工程师。公司的愿景是成为中国第一、世界一流的智能出行公司。

曾用名：文远知行，WeRide
入局时间：2017年底
团队背景：韩旭（Tony Han），前百度自动驾驶首席科学家
自动驾驶等级：L4
代表产品：Robotaxi，自由泊车
融资情况：C，33亿美金
推荐评分：7.5

autox

入职理由：同样是在北美测试榜的前十公司，获得上汽集团、东风汽车等整车厂的看好。AutoX布局全球八大地区城市，在深圳、北京、上海、广州等地设有五大研发中心，在常州设有无人车产线，在深圳、上海、广州、北京设有十大运营中心。目前除了提供自动驾驶服务意外，据传也在提供解决方案。

曾用名：安途，autox
入局时间：2016
团队背景：Stanford顶级团队
自动驾驶等级：L4
代表产品：Robotaxi，AutoX Gen5
融资情况：Pre-B
推荐评分：7.5

元戎启行

入职理由：元戎启行是一家国际化的 L4级自动驾驶公司，聚焦自动驾驶出行和自动驾驶同城货运两大场景。于2021年9月获得获阿里巴巴领投 3 亿美元 B 轮融资；

核心团队有着丰富的研发和商业化经验，汇集了清华、北大、剑桥、哥伦比亚、卡耐基梅隆等国内外名校的硕博士，以及曾供职于谷歌、微软、福特、英特尔、通用、Cruise、百度、华为、腾讯等世界顶尖科技公司的精英。公司研发人员占比高达 80%，覆盖自动驾驶技术的各个模块；

在深圳、北京设有研发中心，和东风汽车、曹操出行、厦门远海码头等知名企业在全国多地开展自动驾驶相关合作，进行了大量的道路测试和试运营。运营车队已分别获得杭州、武汉、深圳等地的测试、试运营许可。自2019年2月成立以来，元戎启行在全国累计的安全路测里程已超过200万公里。

曾用名：元戎启行
入局时间：2019年2月
团队背景：Stanford顶级团队
自动驾驶等级：L4
代表产品：Robotaxi，AutoX Gen5
融资情况：B 轮，3 亿
推荐评分：7.5

驭势科技

入职理由：世界领先智能驾驶企业，无人驾驶商业化领跑者。用人工智能和大数据重构人和物的交通，用无人驾驶解决十亿级别人群的交通和物流问题。驭势科技致力于打造未来的自动驾驶系统和全新的交通方式，我们深信人工智能将赋予交通工具智慧和灵性，让人类的出行更加便捷、安全和舒适。

曾用名：驭势科技
入局时间：2016年11月
团队背景：吴甘沙,前英特尔中国研究院院长
自动驾驶等级：L4
代表产品：无人驾驶物流车，U-Drive智能驾驶系统
融资情况：B 轮
推荐评分：7.5

毫末智行

入职理由：长城汽车旗下自动驾驶公司+百度系。聚焦To C端乘用车高级别自动驾驶解决方案及To B端车规级无人物流小车。现有团队规模近200人，拥有保定和北京两个研发中心。其中来自清华、中科大、南开、中科院等国内985/211重点院校的占比超过25%。

曾用名：毫末智行， HAOMO.AI
入局时间：2019年11月
团队背景：张凯，CEO，长城汽车技术副总工程师。顾维灏，原百度智能汽车事业部总经理
自动驾驶等级：L2～L4，其中，L2～L3级产品已商业化
代表产品：无人驾驶物流车，U-Drive智能驾驶系统
融资情况：A轮，10亿美元
推荐评分：7.5

轻舟智航

入职理由：创于硅谷的全华人团队。基于大规模智能仿真系统、可自主学习决策规划框架和多传感器融合和时序融合方案等核心技术，轻舟智航推出了专注城市复杂交通场景的无人驾驶方案“Driven-by-QCraft。推出的首款无人驾驶小巴——龙舟ONE（又称轻舟无人小巴）已在苏州、深圳、武汉等多个城市落地，是国内布局城市最多的公开道路无人公交。

曾用名：轻舟智航， QCraft
入局时间：2019年5月
团队背景：侯聪，曾就职于Waymo Perception Team
自动驾驶等级：L4
代表产品：龙舟ONE（又称轻舟无人小巴）
融资情况：A+轮，1亿美元
推荐评分：7.5

智行者(iDriverPlus)

入职理由：北京智行者科技有限公司，聚焦无人驾驶汽车的“大脑”研发，致力于成为多通用场景L4解决方案提供商。已获得厚安（厚朴/Arm）百度、顺为、京东等多家国内外知名机构的投资。智行者是业内同时具备开放L4技术能力及限定区域L4落地能力的无人驾驶企业。

公司已有员工400多人，核心团队均来自清华大学汽车系，技术能力业界顶尖，自研的无人驾驶车辆累计测试里程已超过两百万公里，位列国内无人驾驶初创企业前列。

曾用名：智行者，iDriverPlus，智行者科技
入局时间：2015年
团队背景：清华系 | CEO张德兆；CTO 王肖，清华 PhD
自动驾驶等级：L4级
代表产品：robotaxi、robobus、无人驾驶清扫车、无人驾驶吸尘车、无人驾驶洗地车、无人驾驶巡逻等
融资情况：C+轮 70亿
推荐评分：7.2

纵目科技

入职理由：入局时间早，技术积累深厚，目前有很多已经可以落地的辅助驾驶产品。纵目科技在自动驾驶（AD）和高级驾驶辅助系统（ADAS）技术上都有所积累。当前业务涵盖智能驾驶系统、智能传感器和智慧城市产品、服务以及无线充电四大部分。是国内率先获得整车厂L4级别量产项目定点合同的自动驾驶企业之一，并与一汽红旗、长安汽车等多家国内主流主机厂商建立了量产合作关系。

曾用名：纵目科技
入局时间：2013年
团队背景：--
自动驾驶等级：L2,L3为主
代表产品：环视ADAS，全景泊车系统、移动物体监测（MOD）还可叠加车道偏离预警（LDW）等
融资情况：10亿元 E轮
推荐评分：7.2

西井科技

入职理由：西井科技主要做码头集装箱物流。业务需求旺盛，业务已遍及海内外80余个节点。其重点产品WellOcean（人工智能智慧港口解决方案）、Qomolo（新能源无人驾驶商用解决方案），正在使全局化、多场景的AI应用组合创新变得更简单、快速和高效。

曾用名：西井科技，WESTWELL
入局时间：2015-05
团队背景：---
自动驾驶等级：L4(受限场景)
代表产品：Q-Truck无人电动重卡
融资情况：D+
推荐评分：7.0

云骥智行

入职理由：云骥智行由全球知名的自动驾驶技术研发专家，在自动驾驶、车路协同、大数据等领域，具有深厚的技术积累和独到的行业洞见。致力于打造覆盖车、路、云的L4-L5级别自动驾驶通用平台解决方案，为干线物流、城市货运和乘用出行三大应用场景提供跨平台的体化解决方案。

云骥智行已在中国上海、深圳和美国硅谷等地设有研发中心，公司团队70%的人员在汽车领域深耕10年以上，硕博占比为80%。

曾用名：云骥智行
入局时间：021年11
团队背景：前百度副总裁、Apollo平台研发总经理王京傲;小鹏/TESLA曹光植
自动驾驶等级：L4-L5
代表产品：--
融资情况：数亿元天使轮
推荐评分：7.1

禾多科技

入职理由：禾多科技成立于2017年6月，基于前沿人工智能技术和汽车工业技术，打造由本地数据驱动的自动驾驶量产解决方案。作为量产领先的自动驾驶公司，禾多科技具备从人工智能算法到嵌入式系统，从大数据闭环到系统迭代进化的完整布局，以行车和泊车两大场景为量产切入点，最终实现全场景的无人驾驶解决方案部署。

曾用名：禾多科技
入局时间：2017年6月
团队背景：清华大学无人车团队
自动驾驶等级：L4,L5
代表产品：--
融资情况：B轮数亿
推荐评分：7.1

奥特酷

入职理由：AutoCore是Autoware基金会的创建者之一，同时也是基金会多个项目的主要贡献者之一。奥特酷比较低调，没有进行大规模的宣传。据了解公司造血能力很强，盈利状态。主要领导都是技术大佬出身，对行业方向的把握精准。在南京的小伙伴可以尝试。此外AutoCore还与Arm等联手打造的开源平台OpenADKit。

曾用名：奥特酷，autocore
入局时间：2018年3月
团队背景：Autoware开源技术贡献者
自动驾驶等级：L2
代表产品：os,Autoware
融资情况：A轮,高瓴等
推荐评分：7.1

赢彻科技

友道智图

酷哇机器人

3.技术大厂，后发优势

大疆

入职理由：大疆依靠在无人机领域积累的视觉、算法等经验，专强势进入自动驾驶领域，直指自动驾驶L3/4级别系统方案。大疆的技术研发和创新能力毋庸置疑。目前大疆在自动驾驶技术上的定位是作为一个tr1的企业。其外在自动驾驶硬件上，大疆也有很深的技术积累和布局。（大疆的公司文化和以前华为有点，踏踏实实搞技术，不太愿意搞噱头）

曾用名：大疆车载，大疆创新
入局时间：2018
团队背景：内部孵化
自动驾驶等级：L2
代表产品：智能驾驶D80\D80+、智能驾驶D130\D130+、智能泊车系统
融资情况：--
推荐评分：7.6

美团

入职理由：美团的无人驾驶应用场景主要是线下的无人配送。此外，美团也是一个拥有美团打车等服务的出行公司，不排除以后入局无人出租车领域。美团的无人送货车辆已经落地应用，但是还没有完全铺开，目前存在诸多的问题。此外在乘用车的无人驾驶方面，美团也在测试L4级别的应用。

曾用名：美团
入局时间：2016年
团队背景：内部孵化
自动驾驶等级：L4
代表产品：无人配送车
融资情况：--
推荐评分：7.5

阿里巴巴

入职理由：阿里自身自动驾驶领域的积累较少，入局时间也比较晚。但是投资了很多自动驾驶公司。此外，近两年阿里的达摩院和菜鸟等旗下公司也慢慢开始了自己对自动技术的积累。主要的应用场景集中在物流车上。从公开的顶会论文上看，阿里在自动驾驶的研究上的布局取得了不错的进展。

曾用名：阿里巴巴，达摩院，菜鸟
入局时间：2020年
团队背景：内部孵化，贾扬清(caffe主要贡献者)
自动驾驶等级：L4
代表产品：物流车，货车
融资情况：--
推荐评分：7.3

腾讯

入职理由：腾讯下面有很多优秀的实验室，包括优图，AI Lab等。他们的技术积累被用于自动驾驶上不会存在太多的障碍。此外，腾讯还有低调的自动驾驶实验室，目前整个自动驾驶实验室囊括了高精地图、融合定位、仿真平台、系统与架构、数据平台、核心算法等 6 大部门。腾讯应该是以车联网和云服务为抓手，搭建自己的自动驾驶平台。

曾用名：腾讯，腾讯AI Lab，腾讯自动驾驶实验室
入局时间：2016年9月
团队背景：内部孵化
自动驾驶等级：L4
代表产品：--
融资情况：已上市
推荐评分：7.5

滴滴

入职理由：滴滴入局自动驾驶合情合理，入局时间也比较早。在自动驾驶方面，滴滴有很多优势，比如数据积累等。以前自动驾驶可以靠滴滴的其他业务和融资进行持续输血，现在已经拆分出独立的公司进行融资与发展。是否有影响，还是个未知数。以前滴滴的主要产品是Robotaxi，现在滴滴也进入了自动驾驶卡车（Robotruck）业务。

曾用名：滴滴，
入局时间：2016
团队背景：内部孵化
自动驾驶等级：L4
代表产品：Robotaxi
融资情况：已上市，快退市了（速度太快）
推荐评分：7.3

小米汽车

小米从宣布开始造车以来投入了很多资源，小米汽车未来在产品一定会吸引很多的年轻消费者，但是自动驾驶还需要足够多的时间沉淀。

小米自动驾驶吸引了很多有经验的从业人员，会少走不少的弯路。产品定位更多的是在L2，L3附近的高级辅助驾驶功能。除了自动驾驶，小米在智能座舱方面也有很大的需求。智能座舱和自动驾驶相比，安全性要求会比较低，部署和落地更快一点，无论是自动驾驶还是智能座舱，对于算法工程师来说都是个不错的选择。

曾用名：小米，小米汽车
入局时间：2018
团队背景：内部孵化
自动驾驶等级：L2，L3，L4
代表产品：--
融资情况：已上市
推荐评分：7.4

4. 整车企业，全栈自研

小鹏

入职理由：小鹏汽车大家都很熟知了，从开始切入新能源汽车后就大力投入到自动驾驶技术的研发，在国内主机厂中，自动驾驶研发和应用落地无出其右。在某些方面自动驾驶的用户体验比特斯拉还有优秀。无论应届生还是社会青年劳动力都会让你有很大的收获。目前在L2， L3方面的车辆已经量产，L4级别的自动驾驶技术也在积极研发

小鹏汽车于2014年中建立研发团队，2015年1月在广州正式注册成立，目前拥有员工近万人，是中国领先的智能电动汽车设计及制造商，也是融合前沿互联网和人工智能创新的科技公司。致力于通过数据驱动智能电动汽车的变革，引领未来出行方式。小鹏汽车于2020年8月27日登陆纽交所上市，2021年7月7日登陆港交所上市。截至2021年6月30日，小鹏汽车在广州、北京、上海、深圳、硅谷、圣地亚哥、肇庆、郑州等地设有研发生产中心，其中肇庆小鹏汽车智能网联科技产业园已取得生产资质并投产，销售网络覆盖全国105座城市及欧洲挪威，实现了生产、研发及销售全球化布局，2021年累计交付量达到30738台，已超去年全年交付量。

曾用名：小鹏 xpen
入局时间：2014
团队背景：前期特斯拉
自动驾驶等级：L2， L3，L4
代表产品：p7
融资情况：已上市
推荐评分：7.6

蔚来

入职理由：蔚来相信大家已经很熟悉了。2016年之前，蔚来被很多人质疑，但是乘着新能源汽车的东风，蔚来迅速扩张。蔚来在自动驾驶领域的技术积累并不深厚，也就是从近年开始，蔚来才逐步加大自动驾驶技术自主研发的投入。目前已经有业内的多位大佬入职。比如，任少卿，曾就职与momenta,也是faster rcnn的一作。从入职的同学处获得反馈，整体研发路线和规划已经走在了行业的前列。在接下来的量产车上，蔚来可能会用上自己开发的自动驾驶系统。

曾用名：蔚来，NIO
入局时间：2014年11月成立
团队背景：任少卿
自动驾驶等级：L2,L3
代表产品：ES6,ES8,ET5等(自动驾驶技术非自研)
融资情况：已上市
推荐评分：7.5

理想

入职理由：相比较小鹏和蔚来，理想汽车要显得更加低调。而且定位上和小鹏等有所区别，主打家用舒适，并不强调智能，这造成了理想初期在自动驾驶上的研发投入不够，技术水平拉跨，自动驾驶产品频繁延期等问题。现在理想和蔚来一样，在自动驾驶方面正在加大投入的力度。目前自研情况良好，和地平线等企业存在业务上的合作。整体研发氛围轻松，但是节奏很快。后面也许会和地平线一起发布自己的自动驾驶量产产品。

曾用名：理想，NIO
入局时间：2015年7月
团队背景：--
自动驾驶等级：L2,L3
代表产品：理想ONE(自动驾驶技术非自研)
融资情况：已上市
推荐评分：7.5

中汽创智

入职理由：很多同事跳槽了中汽创智，所以对这家公司还算熟悉。属于传统车企强强联合造就的新势力造车企业。公司的定位和技术前瞻性要强于现在的的传统车企。主要是为了智能化出行的愿景，以此挖了很多业界的大佬和高级技术人员，很多都是北美自动驾驶技术的高级人才。公司虽然成立三年不到，但是业务已经涵盖了L2,L3,L4等级的自动驾驶业务，目前车辆在进行路测，但离正真的量产还有一段距离。技术上除了自研，也和地平线存在业务往来，主要是在自动驾驶技术的研发上。

中汽创智科技有限公司由中国一汽、长安汽车、东风公司、兵器装备集团、和南京江宁经开科技共同出资160亿元设立。公司聚焦智能电动底盘、氢燃料动力、智能网联三大业务领域。开展IBC集成制动系统、氢燃料动力系统、驾驶中央计算平台，下一代感知系统、人车路云信息聚合平台、固态动力电池、下一代智能座舱域控制器及信息安全等项目，力争三年实现行业领先。

曾用名：中汽创智
入局时间：2020年6月
团队背景：---
自动驾驶等级：L2, L3，L4
代表产品：--
融资情况：国资委控股
推荐评分：7.4

上汽

入职理由：上汽的历史悠久，典型的主机厂做派。但是在所有传统主机厂中，我觉得上汽在自动驾驶业务上投入精力和时间都是独一份的。自动驾驶业务，上汽一直在持续的投入，无论是自研还是拉供应链一起都做了不少的工作，我的上一家公司在自动驾驶业务的开发上，上汽就出了不少力（钱）。我的很多同学在毕业后入职的第一家公司也有在上汽的，但是无奈，后来都因种种原因离职了。或许这也是上汽存在的问题，他们早就觉得要加大自动驾驶的投入，但是航母掉头需要的时间太长了，而且容易翻车。这种情况希望能慢慢的改变。

曾用名：上海汽车，上汽
入局时间：2007-07
团队背景：---
自动驾驶等级：L2, L3，L4
代表产品：××(无自研的自动驾驶系统落地)
融资情况：--
推荐评分：7.3

华人运通

入职理由：华人运通大家可能有点陌生，说高合汽车大家应该就明白了。华人运通开发的高合HiPhi X有幸体验过一次。也尝试开启了自动/辅助驾驶功能，当我看到屏幕上闪烁的车辆行人等障碍物时，我明白了这家公司的伟大。和蔚来，比亚迪不一样，高合应该是要走自研自动驾驶技术的路了，而且更加坚定，只不过，技术积累还有待进一步提高。如果你是有技术积累的话，华人运通是个不错的选项，你的思想或者工作会有落地的可能。另外。据华人运通的同学反馈，研发氛围不错，和传统主机厂明显不同。

曾用名：华人运通，高合
入局时间：2019-02
团队背景：---
自动驾驶等级：L2, L3
代表产品：高合HiPhi X
融资情况：--
推荐评分：7.2

哪吒

入职理由：合众汽车最近发布了很多性价比很高的产品，但是自动及时技术并未及时跟上。最近这两年也在加大自动驾驶的投入力度。

曾用名：合众汽车，哪吒汽车
入局时间：2014年10月
团队背景：---
自动驾驶等级：L2, L3
代表产品：哪吒
融资情况：--
推荐评分：7.1

三一重工

入职理由：前段时间找机会，很荣幸参加了三一重工的面试，面试情况个人感觉挺好。

和其他乘用车市场不一样，三一主要关注于工业用的特种车辆，包括无人矿车，物流车等等。了解下来，三一给我的感觉是比较踏实，技术路线清晰，且和leader交流觉得很愉快。

相比较乘用车，特征车辆工况比较简单，没有复杂的交通博弈。此外，也没有量产控制成本的压力。因此，可以上目前比较成熟的基于激光雷达的L4自动驾驶方案。

三一目前，应该已经有车辆在矿区测试。目前在招人的是深圳的一个部门，是三一孵化的内部企业--海星智驾，未来有单独上市的可能。

曾用名：三一重工，海星智驾
入局时间：1994年10月
团队背景：--
自动驾驶等级：L4
代表产品：无人矿卡
融资情况：已上市
推荐评分：7.7

5. 零部件企业，自研部分技术

常见的自动驾驶硬件包括计算芯片，光学摄像头，激光雷达，毫米波雷达等。这类企业在发展自身业务的同时也在积累自动驾驶技术。一方面可以提高产品的毛利率，另外也可以提高产品的核心竞争力。

对于求职者来说，零部件企业更关注某些特定领域的知识积累。比如地平线的面试中可能要考察计算加速、前向推理部署等问题。在准备面试的时候要有所针对。

地平线

入职Tips：地平线刚开始的定位是一家人工智能芯片公司，公司的创始人余凯来自百度。在那个风起云涌的人工智能创业时代，地平线的发展可谓高开低走。站在2022年这个时间点上来看，大规模量产的芯片也较少。早期地平线为了给自己的芯片增加更多的应用场景，慢慢的开始在芯片上集成人脸相关的应用，诸如DMS等系统，后来也遇到了一些困难。

在19年末的时候进行了一次大裁员，尤其是南京这边的研究院裁撤比例较大。借着自动驾驶的浪潮，投入了自动驾驶芯片和算法的研发。目前看来，有部分新势力车企已经把地平线的自动驾驶芯片安排上了（比如零度等）。但是实话实话，和英伟达的芯片和算法相比还有很大的差距。量产上路的效果目前还没有太多的反馈。

依托行业领先的软硬结合产品，地平线向行业客户提供“芯片 + 算法 + 云”的完整解决方案。在智能驾驶领域，地平线同全球四大汽车市场（美国、德国、日本和中国）的业务联系不断加深，目前已赋能合作伙伴包括奥迪、博世、长安、比亚迪、上汽、广汽等国内外的顶级 Tier1s ，OEMs 厂商；而在 AIoT 领域，地平线携手合作伙伴已赋能多个国家级开发区、国内一线制造企业、现代购物中心及知名品牌店

曾用名：地平线
入局时间：2017
团队背景：百度余凯
自动驾驶等级：L2，L3, L4, L5
代表产品：征程3，征程5
融资情况：C 轮
推荐评分：8.2

禾赛

入职Tips：禾赛虽然是一家专注激光雷达研发的企业，但是在自动驾驶领域也在进行技术积累。在自动驾驶现有的算法体系中，基于激光雷达的环境感知是实现L4的必由之路。禾赛目前的激光雷达以成本和稳定性等优势逐渐进入整车企业的供应链中。完善自己的软件，形成软硬一体的产品，会进一步拓宽盈利空间，另外也会增加产品的竞争力。目前禾赛在辅助驾驶和自动驾驶上都有涉及，在辅助驾驶中更多是要突出固态激光雷达的成本优势。而在L4级别的自动驾驶上，更多的应该是发挥机械激光雷达的感知优势。

曾用名：禾赛，hesai
入局时间：2014
团队背景：内部孵化
自动驾驶等级：L2,L3,L4,L5
代表产品：激光雷达，固态激光雷达，机械激光雷达
融资情况：D+ 轮
推荐评分：7.6

四维图新

入职Tips：四维图新是中国导航地图产业的开拓者。高精地图对自动驾驶的重要性不言而喻，目前国内的TOP3之一就有四维图新，高精地图的产业涉及面也非常的广，无论采集，标注，使用都还没有形成通用的标准。是自动驾驶细分技术领域的朝阳产业。

目前四维图新已成为导航地图、导航软件、动态交通信息、位置大数据、以及乘用车和商用车定制化车联网解决方案领域的领导者。如今，四维图新以全面的技术发展战略迎接汽车“新四化”时代的来临，致力于以高精度地图、高精度定位、云服务平台、以及应用于ADAS和自动驾驶的车规级芯片等核心业务。

曾用名：四维图新
入局时间：2002年
团队背景：内部孵化
自动驾驶等级：L4,L5
代表产品：--
融资情况：B轮数亿
推荐评分：7.6

寒武纪（自动驾驶芯片）

入职Tips：寒武纪在芯片领域有十余年的积累，目前也在涉足自动驾驶领域。我想初衷和地平线类似，都想给自己的芯片找一个应用的出口，而火热的自动驾驶恰恰满足了这个要求。但是进入时间稍晚，目前芯片也还没有量产，自动驾驶软件还没有路测的相关新闻。

公司的使命是打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片，让机器更好地理解和服务人类。公司创始人、执行官陈天石博士，在处理器架构和人工智能领域深耕十余年，是国内外学术界享有盛誉的杰出青年科学家，曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。公司骨干成员均毕业于国内外名校，具有丰富的芯片设计开发经验和人工智能研究经验，从事相关领域研发的平均时间达九年以上。公司在2016年推出的“寒武纪 1A”处理器是世界终端人工智能专用处理器，已应用于数千万智能手机中，入选了第三届世界互联网大会评选的十五项“世界互联网科技成果”。公司在2018年推出的MLU100机器学习处理器芯片，运行主流智能算法时性能功耗比全面超越CPU和GPU。目前，寒武纪已与智能产业的各大上下游企业建立了良好的合作关系。

曾用名：寒武纪
入局时间：2020
团队背景：内部孵化
自动驾驶等级：L2
代表产品：SD5223(年中)
融资情况：已上市
推荐评分：7.6

欧菲车联

入职Tips：欧菲车联在自动驾驶领域主要的硬件产品是摄像头，此外在激光雷达等传感器硬件上也有所布局。从主营业务出发，欧菲车联也在进行感知算法等自动驾驶模块的开发和研究。

曾用名：欧菲车联，欧菲智联，欧菲智
入局时间：2015
团队背景：内部孵化
自动驾驶等级：L2
代表产品：SD5223(年中)
融资情况：已上市
推荐评分：7.6

速腾聚创

入职Tips：主要业务是激光雷达，包括固态激光雷达和机械机关雷达。产品已经进入了很多车场的供应体系。目前，除了自动驾驶感知的硬件，也在积极的部署自动驾驶相关的软件。

（速腾聚创）是全球领先的智能激光雷达系统（Smart LiDAR Sensor System）科技企业。RoboSense通过激光雷达硬件、AI算法与芯片三大核心技术闭环，为市场提供具有信息理解能力的智能激光雷达系统，颠覆传统激光雷达硬件纯信息收集的定义，赋予机器人和车辆超越人类眼睛的感知能力，守护智能驾驶的安全。

RoboSense总部位于深圳，在北京、上海、苏州、斯图加特（德国）和硅谷（美国）等地设有分支机构。RoboSense在全球拥有500+名员工，来自全球顶尖企业和科研机构的人才团队，为RoboSense提供源源不断的创新能力。截止2021年，RoboSense获得超过500项专利。

曾用名：RoboSense，速腾聚创
入局时间：2015
团队背景：内部孵化
自动驾驶等级：L2
代表产品：固态、机械激光雷达
融资情况：D
推荐评分：7.6

6. 研究机构

上海人工智能实验室

入职Tips：上海人工智能实验室是国内为数不多的研究性实验室。最近这两年，在自动驾驶领域，产出了很多优秀的论文和算法。促进了中国本土自动驾驶技术的研究。研发能力非常强大。

上海人工智能实验室是我国人工智能领域的新型科研机构，于2020年7月在世界人工智能大会正式揭牌。实验室开展战略性、原创性、前瞻性的科学研究与技术攻关，突破人工智能的重要基础理论和关键核心技术，打造"突破型、引领型、平台型"一体化的大型综合性研究基地，支撑我国人工智能产业实现跨越式发展，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。实验室牵头科学家团队由汤晓鸥、姚期智、陈杰等人工智能领域全球顶尖学者组成。

曾用名：上海人工智能实验室
入局时间：2020
团队背景：汤晓鸥、姚期智、陈杰等巨佬
自动驾驶等级：L2，L3，L4，L5
代表产品：
融资情况：D
推荐评分：7.6

#自动驾驶标定技术

最近有朋友问到是否用overlay标定完后数据就直接在Flash中，其实不然，是需要关闭overlay然后通过XCP Program指令集或者UDS刷进Flash。

从这里看出，之前文章对于标定的描述还是不够细致，导致出现了误会，因此这里再详细分析一下标定的概念。如有错误，请大家指正。

我们知道，标定参数(即Parameter)实际上对于ECU的控制算法来说是一个常数，最简单的例子，油门踏板开度影响喷油量，假设算法为y= ax+b。要在某个固定踏板开度(x)达到我们预期喷油量(y)，要反复调整的只能是常数a和b。

因此，所谓参数的标定，就是通过技术手段保证在ECU的开发阶段能够调整paremeter的值。那么我们就来看看有哪些技术手段可以实现参数的调整。

Flash中的标定参数

我们在开发的时候，对于常数其实会用修饰符进行限定的，如下：

const uint32 Parameter_A = 1;

在进行编译链接之后，编译器会把这个Parameter_A分配到Flash的区间(链接文件里的ROM段)并给定一个地址(通过Map文件可以查找)，同时也从编译出来的hex的地址去找到这个值 1，如下图所示：

那么要修改这些参数，应该怎么办呢？有两个办法：

通过在源码中修改常数值，重新进行编译，然后刷进ECU里。这样很麻烦，遇到稍微大一点的工程，编译都得十几二十分钟，很显然这种方法是不符合现在的开发流程的。

通过FlashDriver对存放Paremeter_A的Flash空间进行重编程，这种方式比上述重新编译要好一点，但是还是实时性不够，并且目前的FLash特性是没有办法按照Byte进行擦除的，意味着要修改一个标定参数就必须擦掉整个Sector，重新刷写所有的标定参数，这显然是不可接受的。当然，如果ECU外挂的EEPROM，那么就不会存在这个问题了，但是访问速度和相应的开发成本也是阻碍参数的实时标定。

另外，还需要提一点的就是，如果编译器优化等级开的比较高，作为常量的Parameter_A有可能会被优化，直接作为一个数值出现嵌入到代码中，而不会出现在map文件里。因此我们在定义标定参数这种类型常量时，通常会按照如下定义：

volatile const uint32 Parameter_A = 1;

volatile可以有效防止被编译器优化；

此外，为了方便管理和能迅速定位到标定参数，我们通常也会在链接文件里定义一块单独的空间，在代码里使用#pragma把参数放到该空间里，如下：

#pragma section "Cal_Flash" const uint32 Parameter_A = 1;

这里我们简单讲了标定参数只在Flash里的时候应该如何修改，实际上这种方式并不能支持我们在ECU运行过程中动态修改

所以，我们能不能想个办法把这些参数搬到一段RAM中，在RAM里实时修改，修改完成后再把标好的参数重新刷进Flash。

显然这个想法是成立的。

RAM中的标定参数

我们定义一个带初值的变量，如下图：

uint32 Parameter_A = 1;

编译器会给这个参数分配RAM空间地址，并且初值存放在Flash中。我做过一个试验，用英飞凌TC2xx系列，在不修改链接文件的情况下，编译器给标定参数分配一个RAM地址，但实际上存在Flash里，如下图：

这是怎么实现的呢？我们查看链接文件关于.data段的定义：

这行代码的含义就是加载运行在RAM(DSPR)，但是初值存放在PFlash，上电时启动代码会将Flash中的值拷贝到RAM里。

控制算法去获取Parameter_A的值也是从RAM去拿值的，所以这种情况我们就可以在ECU运行过程中动态修改标定参数的值。

这个时候还不是完全体，通常我习惯是拿出一段单独的Flash空间方便标定数据的管理，借鉴上面链接文件的修改，就可以在RAM和Flash单独定义一块空间专门给标定使用，因此在链接文件里有了如下定义:

#pragma section "calDataOvc"

const uint32 Parameter_A = 1;

但是这样又有一个问题，因为标定数据的地址是RAM地址，那么使用标定上位机导出的标定数据hex文件还是RAM的空间。

这个时候我们想要把标定数据刷到Flash，还需要对hex文件做一个地址的偏移，最后通过UDS或者XCP自带编程指令集进行刷写。

这也比较麻烦，所以英飞凌、NXP均针对这个问题实现了memory overlay的功能。

AUTOSAR基于指针标定概念

在AUTOSAR RTE的SWS里，明确提出来标定和测量功能的支持，如下图：

在XCP文档里提出来基于指针标定的概念，其具体实现形式如下：

标定参数的访问地址和数据大小在启动阶段被收集到Pointer Table，最开始均是该Table中收集到的均是参数的Flash地址，并且通过软件给Flash里的参数分配RAM地址，但是此时RAM还是没有内容填充的。

注意，这个时候A2L文件里面标定量的地址为Flash地址，当它下发一个download命令后，在XCP Slave这一层首先会检查当前处于WP还是RP，如果是WP，那么此时就Pointer Table就选择使用该标定量对应的RAM地址（对用户不可见），然后进行填充，此时算法获取标定量就通过RAM，从而实现了标定动态修改参数的功能，如下：

这个方案的提出就是为了解决某些标定软件在A2L文件里只识别Flash地址的参数，但是确定很明显：多了一个Pointer Table增加了RAM消耗，同时为了防止内存泄露，本身装标定量的RAM空间也是需要空出来的。

目前，我还没有使用过这种方式。

小结

本文主要梳理了标定的概念，目前使用的比较多的还是基于RAM的标定，同时只要芯片支持overlay(Flash emulation)，上位机可以直接使用标定参数的flash地址，在MCU内部硬件自动进行地址重映射，需要注意的是，即使使用Overlay功能，标定参数的修改始终针对是RAM里的值，如果想要固化到Flash里面，有两种方式：