展望未来 | AI大模型在自动驾驶的应用-CSDN博客

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

Transformer大模型在自动驾驶中应用趋势明确

Transformer 基于Attention机制，凭借优秀的长序列处理能力和更高的并行计算效率，2021年由特斯拉引入自动驾驶领域。Transformer 与CNN相比最大的优势在于其泛化性更强。

CNN只能对标注过的物体进行相似度的比对，通过不断学习完成对该物体识别的任务;而Transformer可以通过注意力层的结构找到更基本的元素与元素间之间多个维度的相关信息进而找到一种更泛化的相似规律，进而提高自动驾驶的泛化能力。

同时，不同于RNN存在存储时间长度有限以及顺序依赖的问题，Transformer 模型具有更高的并行计算效率并且可以学习到长时间距离的依赖关系。目前，Transformer主要应用在自动驾驶感知模块中从2D特征图向BEV乌瞰图的视角转换。

城市领航辅助驾驶落地在即，AI大模型助力实现“脱高精度地图”

目前，主机厂正逐步从高速场景向城市场景拓展，2023年有望成为城市领.航辅助驾驶的大规模落地的元年。相比于高速场景，城市场景所面临的Corner (case: 大幅提升，要求自动驾驶系统具备更强的泛化能力。

目前已落地城市NGP主要基于高精度地图方案，高精地图能够提供超视距、厘米级相对定位及导航信息，在数据和算法尚未成熟之前，对于主机厂实现高级别自动驾驶具有重要意义。

但高精度地图应用过程中无法做到实施更新、法规风险高、高成本的三大问题难以解决。BEV感知算法通过将不同视角的摄像头采集到的图片统一转换到上帝视角，相当于车辆实施生成活地图，补足了自动驾驶后续决策所需要的道路拓扑信息，因而可以实现去高精度地图化。

目前，小鹏、华为等头部自动驾驶厂商均明确提出“脱图时间表”，自动驾驶算法“重感知，轻地图”趋势明确。

大数据和大算力是大模型应用的重要前置条件

Transformer 大模型量变引起质变需要1亿公里的里程数据。并且，传感器采集得到的raw-data 需进行标注后才可用于算法模型训练，自动标注工具可大幅提升数据处理速度。2018年至今，特斯拉数据标注从2D人工标注逐步发展至4D空间自动标注;国内厂商中小鹏、毫末智行等亦相继推出自动标注工具大幅提升标注效率。

除真实数据外，仿真场景是弥补训练大模型数据不足问题的重要解决方式。生成式AI有望推动仿真场景大幅提升泛化能力，帮助主机厂提升仿真场景数据的应用比例，从而提高自动驾驶模型的迭代速度、缩短开发周期。大算力是Transformer模型训练的另一重要条件,超算中心成为自动驾驶厂商重要的基础设施。

特斯拉Al计算中心Dojo总计使用了1.4万个英伟达的GPU 来训练AI模型，网络训练速度提升30%,国内厂商中小鹏与阿里联合出资打造自动驾驶AI智算中心“扶摇”，将自动驾驶算法的模型训练时间提速170倍。

大模型赋能自动驾驶，算法、数据闭环、仿真全面受益

1）自动驾驶算法、数据不断迭代，长尾问题处理成为关键

自动驾驶算法从基于规则逐步走向神经网络，从模块化部署走向端到端一体化， Transformer+BEV 逐步成为主流。长尾问题处理是自动驾驶面临的主要挑战，数据驱动提供解药。

当前，大部分算法可以覆盖主要的行车场景，但驾驶环境纷繁复杂，仍有诸多罕见的长尾场景需要算法识别和处理，这类场景虽不常见但无法忽视，成为制约自动驾驶成熟的主要瓶颈。

行业通常采用大量的数据去训练自动驾驶算法，以求让自动驾驶模型成为见多识广的“老司机”。早期 Waymo 的路测、特斯拉的影子模式均希望通过获取大量数据解决长尾问题。国内毫末智行将数据作为“自动驾驶能力函数” 的自变量，认为是决定能力发展的关键。

Momenta 在其公众号上也表示 L4 要实现规模化，至少要做到人类司机的安全水平，最好比人类司机水平高一个数量级，因此需要至少千亿公里的测试，解决百万长尾问题。

自动驾驶在模型端仍需优化，数据闭环、仿真工具仍待完善。自动驾驶近年发展迅猛，硬件预埋软件持续迭代的风潮下，车载算力急剧增长快速普及，但软件端功能进化滞后于算力。软件端算法、数据闭环、仿真系统均有待完善。

2）大模型全面赋能，自动驾驶各大环节全面受益

蒸馏、剪枝、量化助力大模型在多场景应用。通常大型模型采用三种方式压缩：蒸馏、剪枝、量化。

大模型可在算法、数据闭环、仿真等环节全面赋能自动驾驶。大模型具有良好的认知和推理性能，作为人工智能最先落地的应用领域之一，自动驾驶有望得到全面助力。首先在数据闭环和仿真环节，大模型的精准识别和数据挖掘以及数据生成能力可对数据挖掘、数据标注、以及仿真场景构建赋能。

其次在模块化的算法部署模式下，感知算法、规控算法亦可受到大模型的加强而实现感知精度和规控效果的提升。

最后，端到端的感知决策一体化算法被认为是自动驾驶算法终局，但面临诸多难以解决的问题，比如构建适合该算法的仿真换环境、端到端的数据标注等，而在大模型时代以上问题或不再成为瓶颈，落地指日可待。

（1）大模型助力数据挖掘和自动标注，数据飞轮飞驰推动自动驾驶落地

在自动驾驶的数据闭环体系构建过程中存在数据挖掘和自动标注等难点。随着量产车型数量增加，产生的数据量呈现指数级增长，一方面，高效的利用数据实现预期的训练效果要求系统具有数据挖掘、处理能力。

另一方面，海量数据的标注带来高昂的成本，而部分 3D 场景人工标注较为困难，进一步限制算法模型迭代和应用，大模型诞生后这两类问题有望迎刃而解。

（2）大模型推动算法迭代，感知规控全赋能

大模型在自动驾驶感知端算法的应用：大模型作为车端算法的“老师”，通过“蒸馏（教授）”帮助小模型实现优异的性能。

❶ 利用大模型赋能增强小模型远距离 3D 视觉感知：一方面通过大模型对图像进行 3D 标注，投送给小模型学习。另一方面，在模型中编码器输出处、在 2D 和 3D 的头等位置，进行大模型到小模型的蒸馏帮助提升小模型性能。最后全面提升了小模型的 3D 感知效果。

❷利用大模型赋能多模态感知：面向车载端融合视觉激光雷达数据的自动驾驶算法，同样使用伪标注（自动标注）、并在图像端和点云端进行知识蒸馏等方式，全面提升了多模态模型的感知效果，识别出了此前没有识别出来的绿化带等信息。

（3）大模型在规控端应用：毫末智行发布行业首个 DriveGPT

毫末智行推出 DriveGPT，可实现城市辅助驾驶、场景脱困、驾驶策略可解释等功能。毫末智行在 2023 年 4 月的 AI DAY 上推出了业界首个 DriveGPT 大模型—— 雪湖·海若。

模型训练过程参考GPT，首先构建1200 亿参数的大模型，预训练环节，将自动驾驶空间的信息如车道线、感知环境等离散化后作为 Token 输入大模型，再基于联合概率分布生成未来Token 序列，将 4000 万公里中合适的数据放进大模型中。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~