浅聊自动驾驶端到端的脉络整理(感知&预测&规划)

作者 | wnwn 编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/27983835711

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端』技术交流群

本文只做学术分享,如有侵权,联系删文

背景

自动驾驶感知最近似乎进入瓶颈期,接近一年的时间Nuscenes障碍物检测榜单都不再有更新,而大模型如火如荼的发展把数据驱动的AI发展逻辑也代入了自动驾驶领域。这篇博客主要是想把最近关注到的一些自动驾驶端到端的论文整理一下,捋出一些有价值的思路和想法。

参考VAD的论文思路,我会把端到端整体划分为3部分:

  1. 感知端到端

  2. 预测端到端

  3. 规划端到端-端到端整体架构

感知端到端

感知端到端这一块主要涉及到多传感器融合和时序融合。我想从障碍物和车道线这2个领域分别调一篇比较有代表性的论文聊一聊。

  • 障碍物:Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

nuscensce视觉障碍物检测SOTA方案,整体架构延续DETR一派,新增维护memory队列,其中巧思很多,主要有一下几点:

eb0dd6d3792d0024721cdb5a4a32ca6d.png
  1. 可学习query中新增队列实例做初始化(注意速度,是否拿来做障碍物的位置编码残差项?)

28ff21c15113e29b771ac4f0f2b06214.png
  1. 按属性拆分的attention

1750988091d09c1308a16efa5245e9b0.png
  1. 在模型中做实例信息整合,而无需显式匹配,在记忆队列里维护实例id

  • 车道线:MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

选择这篇主要是思路和效果都不错,放个效果图大家感受一下~

9c0f8519842ba0cb58dc869820f887fe.png

这篇文章比较吸引我的一个点在架构上

f6b49096f4d4bce80bf5bcd6d791c2d3.png

这篇文章和上面的Sparse4D一样是维护了2个记忆队列,可以把这些记忆队列理解为车道线的隐藏状态,这个状态在时序迭代中是越来越切合实际的。可以着重关注一下Minit的2个feature,可以看到在推理的初始阶段这2个tensor是不包含什么信息的,随着推理,这2个tensor的信息实际上由t-1时刻的特征替代,整个架构的前一部分是做t-1 - > t时刻的预测,后一个阶段是做t-1和t时刻的特征融合和t时刻的状态估计,整个流程和卡尔曼滤波几乎别无二致,这也算是一种致敬吧,哈哈哈

思考点:这里的所有CA能不能参考LLM换成因果attention?

预测端到端

1. FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras

虽然是21年的文章,但是确实非常经典

036438804f526ada0bfa3d58696e9417.png

文章的预测部分引入一个隐藏的状态,这个状态满足个元素相互独立的多元正态分布,通过网络预测其期望和方差,再通过分布采样一个状态作为当前时刻的隐藏状态,这个隐藏状态又作为输入用来预测下一时刻的环境。

个人觉得这样建模是比较好的体现了未来的不确定性。

2. Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction

把障碍物轨迹预测建模为多智能体+多运动模式的组合,核心点在下面这个公式,可以按MapTRV2的思路去理解,即智能体和运动模式看做正交的2个变量,通过2者间的组合可以构建其智能体运动空间

00ce2e911b01e3a967a485159295307d.png

下面是不同运动模式的运动终点的可视化分析,可以看到不同运动模式的偏好

8004bff63ba8af44d7625779c863b126.png

这篇文章的建模稍显复杂,感觉不是很必要,整体思路上参考一下就行了

规划端到端-端到端架构

这一部分主要介绍一下最近看的几篇比较流行的端到端架构,总结一下异同。

1. VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

03e1580c0f6cf1ae477ab2a8f99e3751.png

首当其冲的这篇论文架构重点确实清新,指出了端到端的核心点,规划模块。实际上这篇论文很清晰的指出了规划模块的输入输出和约束。

输入包含几块:感知结果,原始图像信息,导航信息和自车运动信息。

输出:规划轨迹的概率分布

监督信号:实际轨迹与预测轨迹的KL散度

约束信息:地图和其他障碍物约束

6ac68eaf0f896933e1dce5543000b807.png

最后提一句损失函数,有3部分:

  1. 轨迹的概率分布之间的KL散度

  2. 碰撞等约束条件的冲突损失

  3. 感知的监督损失

这样重点清晰,逻辑自谦,可视化简洁的文章可真是懒人最爱~~~

2. Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

这篇文章与VAD师出同门,一样优秀的可视化功底,几张图基本把训练流程、模型架构和模块间相互支撑的关系讲清楚了

ddace080b234cdcc5ae2098aa104b38f.png

这篇是VLM结合端到端的文章,重点主要在VLM的设计上,以下是VLM关注的几个问题:

  1. 场景描述

  2. 交通灯状态

  3. VRU信息

  4. 其他障碍物的运动信息

  5. 自车的运动规划

  6. 运动规划的解释

这几个问题解释了规划的逻辑并为端到端提供高级的驾驶意图指导

48f4a43e238b3857020e9e802f80eaa0.png

这个图展示了VLM和E2E的信息交互,2个模块间的相互支撑很明显

2.1 DRIVEVLM: The Convergence of AutonomousDriving and Large Vision-Language Models

DriveVLM的架构跟Senna很像,都是VLm和E2E并行交互,但是某种程度上来说DriveVLM走的更远一些

4f179d6ab82e70b594a429f23da5cfe4.png

上面是DriveVLM的架构,VLM的推理部分更加格式化,且推理之间的递进关系可能能帮助其推理逻辑更加缜密

VLM推理的3步:

  1. 分析理解场景,找出关键障碍物

  2. 分析关键障碍物,给出其状态和其与自车的交互信息

  3. 生成驾驶意图,分为3层:

3.1 meta-action:意图动作

3.2 decision:动作规划

3.3 Waypoints:具体的轨迹点

a43c68fbb4c2bd2fcafbcff3ad05f712.png

还给出了推理标注流程,数据集构建流程:

  1. 长尾目标挖掘和挑战的场景挖掘

  2. 人工过滤

  3. 关键帧挑选

  4. 场景标注

  5. 人工校验

3. EMMA: End-to-End Multimodal Model for Autonomous Driving

这篇文章是纯VLM支撑的端到端自动驾驶,输入图像和文本信息,输出感知和规划路径

94c2107af1906a2c8cc1e7e0c70d07dc.jpeg

基于CoT的规划,推理部分包含4个主题:

  1. 场景理解

  2. 关键目标

  3. 关键物体的行为描述

  4. 元决策(例如保持低速直行)

20392abca3a5efb69934f78d5189886c.png

方案有些激进,但是一体化的思路值得参考

4. RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based

Reinforcement Learning

提出利用GS多视角图像,支持训练的反馈闭环

092edbb440dd9c9595047c2034af02aa.png

3阶段训练:

s1:感知预训练

s2:规划预训练

s3:规划策略网络强化学习

8cf7a33cb51db6ee57c52f116ca15248.png

同时使用PPO强化学习和模仿学习

7759847ce17c045cf8b80ae3b63f76ea.png 82f0b9183263a08bfc21e616f5459b3d.png

强化学习的4种反馈信息,GS生成能比较好的模拟这些corner case:

  1. 动态障碍物碰撞

  2. 静态账务碰撞

  3. 位置偏移专家轨迹

  4. 航向角偏移专家轨迹

3106c54a10f162c99d77370c6fc9e18f.png

以上是我最近关注端到端自动驾驶的一些记录,欢迎大家来一起讨论~

① 自动驾驶论文辅导来啦

38f88b0ffb2c4f03b23152d6d571f1bb.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

a053a600d4f60c83f69f8bdb1b6e29c5.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

88dc0df3f443ba591418935bce73b5ce.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

8e50558cf8960cb7e1c95dc13146d0e7.png

### 深度全卷积神经网络(Deep Fully Convolutional Network)介绍 深度全卷积神经网络(Deep Fully Convolutional Network, Deep FCN)是一种完全由卷积层组成的神经网络架构,摒弃了传统卷积神经网络中的全连接层。这种设计使得模型能够接受任意大小的输入图像并生成对应尺寸的输出特征图,非常适合用于像素级的任务,如语义分割。 #### 架构特点 Deep FCN 的核心理念在于通过卷积操作替代传统的全连接层,从而实现端到端的训练过程。具体来说,FCN 使用反卷积(Deconvolution 或 Transposed Convolution)来逐步恢复被下采样过程中丢失的空间分辨率[^1]。这种方法不仅保留了原始图像的空间信息,还显著减少了参数数量,提高了计算效率。 #### 实现细节 以下是构建一个简单的 FCN 的 Python 代码示例: ```python import tensorflow as tf from tensorflow.keras import layers, models def create_fcn(input_shape=(None, None, 3), num_classes=21): model = models.Sequential() # 卷积层和池化层 model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same', input_shape=input_shape)) model.add(layers.MaxPooling2D(pool_size=(2, 2))) model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same')) model.add(layers.MaxPooling2D(pool_size=(2, 2))) model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same')) # 反卷积层(上采样) model.add(layers.Conv2DTranspose(128, kernel_size=(2, 2), strides=(2, 2))) model.add(layers.Conv2DTranspose(num_classes, kernel_size=(16, 16), strides=(8, 8), padding='same')) return model ``` 此代码定义了一个基础版本的 FCN 结构,其中包含了多个卷积层、最大池化层以及反卷积层。最终输出的是具有 `num_classes` 类别的预测结果。 --- ### 应用领域 1. **语义分割** FCN 是最早成功应用于语义分割任务的经典方法之一。通过对整幅图片进行逐像素分类,它可以精确标注出每类物体的位置及其边界。 2. **目标检测与实例分割** 虽然现代的目标检测框架更多采用 Faster R-CNN 或 YOLO 系列等技术路线,但在某些特定场景下,基于 FCN 的改进版仍然表现出色。 3. **医学影像分析** 在医疗健康领域,比如肿瘤区域划分或者器官轮廓提取等方面,FCN 提供了一种高效解决方案[^2]。 4. **自动驾驶环境感知** 自动驾驶汽车需要实时理解周围复杂多变的道路状况,而利用 FCN 进行情景解析可以帮助车辆更精准地判断障碍物位置及可行驶路径。 --- ### 历史背景与发展脉络 早在 1998 年,Yann LeCun 就在其研究工作中引入了早期形式的卷积神经网络——LeNet-5,并首次尝试将反向传播算法应用于该体系结构之中[^3]。这一开创性的工作奠定了后续众多先进模型发展的理论基石。 随着时间推移和技术进步,人们逐渐意识到仅依靠标准 CNN 存在局限性:它们通常依赖固定大小的输入数据集;而在实际应用场景里,往往面临不同尺度对象共存的情况。因此,为了克服这些缺陷,研究人员开发出了更加灵活通用的形式—即所谓的 “全卷积” 版本。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值