【行业进展】理想快慢模型

概要

【理想汽车2024智能驾驶夏季发布会】 https://www.bilibili.com/video/BV1A4421U7rW/?share_source=copy_web&vd_source=5710b01ad09d526e60983a7ed0b99971

架构演进

在这里插入图片描述
第一代是架构,理想的NPN架构,模块化,有感知、有定位、有规划、有导航、有NPN,中间拿规则串在一起。理想在全国100个城市交付了城市NOA。

第二代架构,无图NOA,只有两个模型了,感知和规划,中间也是拿规则串在一起。不用等先验信息更新,全国都可以开。

第三代架构,4D one model 端到端,只有一个模型,它的输入和传感器输出是我们的行驶轨迹。

整体架构流程

在这里插入图片描述
快系统,即系统1,善于处理简单任务,更像人类基于经验和习惯形成的直觉,足以应对驾驶车辆时95%的常规场景。系统1由端到端模型实现快速响应,端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆。

慢系统,即系统2,则是人类通过更深入的理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%。系统2由VLM视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。

双系统构成的自动驾驶能力还将在云端利用世界模型进行训练和验证

系统1,端到端模型

在这里插入图片描述
左上半部分,输入是常规的传感器,包括摄像头和激光雷达。进入到了专门为Orin-X优化过CNN主干网络,然后提取他们的特征并融合在一起。为了增强BEV空间这个特征的表达能力,我们加入了一些记忆模块,它不仅仅有时序上的记忆,还有空间上的记忆。

左下半部分,额外设计了另外两个输入。第一个是自车的这个状态信息,第二个是导航信息。前方有2公里的这个导航信息,包括我们听到的一些语言文字,比如说前方300米左转,类似这样的都会输入,拿到数据比较远。

那这个时候信息进入到我们我们的一个Transformer的编码器之后,和我刚才提到加强后的BEV特征一起解码出了四个东西,动态障碍物、道路结构,OCC,规划出我们的行驶轨迹。

除了行驶轨迹的另外三个感知任务,把我周边的环境描绘出来,然后通过EID呈现给用户,让用户能看到。另外,作为整个端的模型的辅助监督任务。这样可以加速我的行驶轨迹的收敛,可以在更短的时间内训出一个更好的模型。

系统2,VLM视觉语言模型

统一的transformer解码器,里面的参数量是非常大。将文本的prompt进行Tokenizer编码,然后输给这个解码器。然后同时把30度相机,120度相机的图片以及导航地图的图像进行视觉编码。

然后送给这个模态对齐模块,对齐后的信息也交给这个解码器,最后一起自回归的输出。

系统二的输出包含:对环境的理解、驾驶的决策建议、驾驶的参考轨迹,这些都是可以给到系统一帮助辅助驾驶策略的。

大模型部署提升

在这里插入图片描述
22亿的参数部署到车端芯片的措施:

  1. 开始把大模型放在Orin-X部署,推理时间长达4秒
  2. 把大模型先进行量化,减少带宽的一个瓶颈,魔改了GPTQ,在Orin-X上实现了性能的提升,推理时间从4秒钟降到了1.9秒
  3. 视觉ViT的推理,和英伟达在最新的DriveOS上,实现了更好的Tensor的算子融合,对attention算子进行了深度优化,从1.9秒提升到了1.4秒。
  4. 自回归的推理,采用投机采样(大模型在一次推理过程中能连续输出多个token),从1.4秒降到了0.7秒。
  5. 流式的视频流推理,这样使重复的视觉计算得到大大的缓解。我们最后达到0.3秒的一个推理性能

仿真测试

闭环仿真系统三种路线

在这里插入图片描述
第一种就是3D仿真,把3D的资产或者3D的模板,人工编辑排版,然后生成场景,最后通过游戏引擎渲染出来了。缺点:场景一眼假、效率低。

第二个是真实数据的重建,把大量的真实数据通过NeRF或者3DGS这样的技术,自动化的重建出来。优点:整体效率,比3D仿真这种要快的多。光照材质,然后行为这些都会真实的。缺点:把自动驾驶的系统接入进去作为闭环仿真的时候,如果本车跟原来的车的这个行为差异比较大,视角变化很大。那新视角下重建的时候场景会出现模糊拖影这样的现象,也没办法完全满足自动驾驶的需求。

第三种生成式,利用diffusion技术然后加上prompt,形成这种各种各样的场景。缺点:世界模型或者生成模型,它最大的问题是它没有真正的理解世界。所以它存在很多不符合规律的这种幻觉的问题,也没办法完全满足自动驾驶的需求。

理想方案提升

在这里插入图片描述
理想:重建加生成结合的世界模型的方式
下半部分,GS重建的过程,利用真实数据的先验,给出layout做约束,然后再加上prompt,再给一些这种参考图片,生成新的视角。优点:①如果转换新视角,它也不会出现之前模糊的这个问题;②生成的部分它可以独立的运行。那有了这种layout的先验,再加上这种Reference的图片,再加prompt,其实可以生成很多符合真实世界规律,但是没见过的场景。它的泛化性会更好。

通过分离视频中的动态和静态元素,利用3DGS算法对静态背景建模,并对动态部分进行360度新视角生成,最后将两者结合创建出一个可操控的3D物理世界。在这个世界中,可以自由移动视角,调整动态障碍物的位置和轨迹,为系统测试提供了良好的泛化能力。

生成模型比单纯的重建拥有更好的泛化性,能够控制天气、时间、车流等变量,生成多样化的场景来测试模型的适应性和泛化能力,实现了“15秒经历一年四季”的效果。这些技术不仅为自动驾驶技术的学习和评估提供了无限的环境,还保证了最终软件产品的高效性、安全性和舒适性。

### 如何评估扩散模型的运行速度和效率指标 #### 1. 测量时间消耗 为了量化扩散模型的速度性能,最直接的方法是测量其在不同阶段的时间消耗。具体来说: - **单步推理时间**:记录每次迭代中去噪步骤所需的时间。对于大多数实现而言,可以通过简单的计时工具完成这一操作[^4]。 ```python import time start_time = time.time() # 执行一次完整的前向或反向过程 end_time = time.time() inference_time_per_step = end_time - start_time print(f"Inference Time per Step: {inference_time_per_step:.4f} seconds") ``` - **总推断时间**:累积所有步骤中的耗时得到整个生成流程所需的总体时间。这对于比较不同配置下的整体表现非常重要。 #### 2. 计算资源利用率 除了纯粹的时间度量外,还应考虑计算资源的有效利用情况。这包括但不限于CPU/GPU占用率、内存带宽等硬件层面的因素。借助于专业的监控软件如NVIDIA-SMI(针对GPU),可以获取详细的资源使用报告。 #### 3. 并行处理能力 现代架构允许一定程度上的并行执行多个实例的任务分配给不同的处理器核心或多台机器集群环境内分布式部署。因此,测试多线程/进程支持程度也是评价系统效能的一个重要方面。 #### 4. 性能优化前后对比 当尝试各种提速手段之后——比如采用更高效的算法变体或是调整超参数设置——应当重新进行全面评测并与原始版本做对照分析。这样不仅能够直观展示改进效果,而且有助于发现潜在瓶颈所在之处。 #### 5. 质量 vs 效率平衡考量 值得注意的是,在追求更快运算速率的同时不可忽视最终产出物的质量损失风险。理想情况下,应该找到两者间的最佳折衷方案,即以尽可能少的时间成本换取满意的输出品质[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值