一段式端到端vs两段式端到端,到底哪个好

在智能汽车领域,端到端自动驾驶技术正迅速成为行业焦点,不同的玩家实现路径也有差别。目前主流的端到端智驾方案有两类:一段式和两段式,针对这两种方案优缺点的讨论,也从未停止过。

“两段式”端到端和“一段式”端到端具体有哪些区别呢?

一段式端到端:

通往自动驾驶“ChatGPT”时刻的关键路径

ChatGPT输入一个文本,全面理解文本,预测下一个token。OpenAI的首席科学家做过一个比喻,你读了一本推理小说,在书的末尾要预测凶手的名字。要做到这一点,你就需要理解整部书。

一段式端到端采用的是类似ChatGPT的训练方式,2022年底,商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型——UniAD,采用的就是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中,也就是由传感器直接输入外部环境信息,直接输出自车行驶轨迹,实现信息的无损传递,从而做出更精准的决策。相比之下,“两段式”方案信息经过感知模型过滤后,再到规控模型,损失较多,同时还会面临无法全面理解整个复杂场景、泛化能力和解决corner case的能力比较弱等问题。
 

王晓刚在2024年WAIC大会的发言

上限更高!一段式端到端,全面理解并应对复杂场景

两段式端到端模型由于网络规模小,只能解决特定简化任务,类似于动物擅长某些固定行为,比如:蜜蜂的习性就是特定的简单任务,它一直会干得很好,但是它的大脑相对很简单,无法应对复杂多变的环境。而一段式端到端模型则像人类大脑,具备更高的理解力和进化能力,能够全面理解并应对复杂场景,不断学习和进化,解决当前问题后,逐步提升至新的level,掌握新的工具并应对未曾见过的多样场景。所以,这样的模型不仅解决当前问题,还能适应未来更复杂的挑战。
 

一段式端到端,开发艰难,但正确

一段式方案要求前端处理大量视频信息,同时输出的决策信号必须极为精准,这对整个网络的训练、数据量以及Pipeline的要求极高。正如王晓刚所言,“‘一段式’方案很难,但一旦模型学出来能力会很强,这才是我们追求的自动驾驶里面的‘ChatGPT’时刻。”

实现「一段式端到端」自动驾驶方案的难度远超两段式。端到端自动驾驶技术的发展面临高昂的成本、巨大的算力资源需求、大量的高质量数据输入以及强大的模型性能支撑等挑战。商汤绝影之所以能够持续在这一领域取得突破,主要依赖于其丰沛的算力资源和高质量数据积累。商汤大装置已经布局全国一体化的智算网络,运营45,000卡GPU,总体算力规模达12,000 PFLOPS。同时,商汤绝影荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文。在大模型的轻量化部署和持续迭代方面具备深厚的技术积累,使得绝影能够快速实现一段式端到端自动驾驶方案的车端部署并上路测试,持续引领端到端自动驾驶的前沿潮流。

给端到端装上“多模态大脑”
——DriveAGI

商汤绝影正在研发面向下一代自动驾驶技术——DriveAGI,基于多模态大模型对UniAD进行改进迭代,通过多模态大模型加持端到端方案,打造下一代自动驾驶技术。让车辆像人一样理解复杂的现实世界,洞察各类交通参与者的行为动机,快速学习各种交通规则,掌握瞬息万变的道路信息,还能向用户解释驾驶决策的推理过程。

Image

在路上遇到救护车,凭借DriveAGI的认知能力,车辆不仅能识别救护车,还能做到主动为执勤救护车让路

从模仿人类驾驶行为到不断超越人类,商汤绝影通过两大王牌——感知决策一体的「一段式端到端」自动驾驶大模型UniAD,以及多模态加持的下一代自动驾驶大模型DriveAGI,实现了由认知驱动的自动驾驶。这个智驾方案不仅适用场景更广泛、性能更高,同时也降低了应用门槛,加速智能汽车驶向AGI时代。

### 一段端到端与二段的区别 #### 定义与架构差异 一段端到端方法指的是从原始数据直接映射到最终输出的任务处理方,在此过程中间没有任何显性的中间表示或阶段划分。对于智能驾驶而言,这意味着传感器输入可以直接转换成车辆控制指令[^1]。 相比之下,二段端到端解决方案则引入了一个或多个中间层用于特征提取或其他预处理操作后再进行决策制定。这种设计允许开发者更好地理解和调试系统行为,并且可以在不同模块之间灵活调整性能权衡。 #### 实现复杂度比较 一段的方法通常具有更高的理论简洁性和潜在效率优势,因为减少了不必要的计算开销;然而这也增加了训练难度——网络需要学习更加复杂的映射关系,尤其是在面对多样化的真实世界环境变化时可能会遇到挑战。 相反地,由于存在明确分离的功能组件,使得二段更容易被人类工程师理解、分析和改进。此外,当某些特定子任务已经拥有成熟的技术支持时(比如高质量的目标检测算法),采用分步策略可以充分利用现有资源从而加速整体开发进度。 #### 应用场景探讨 ##### 一段适用情况 - **简单明了的任务**:如果应用场景相对固定且规则清晰,则可以选择一段方案以追求极致的速度表现。 - **高度集成的需求**:在那些对实时响应要求极高并且希望减少延迟的情况下,如低速园区内的无人驾驶摆渡车项目中,一段的设计能提供更快捷的数据流传输路径。 ##### 二段更适合的情形 - **复杂多变的环境**:当面临不确定因素较多的操作条件或是需要频繁更新适应新状况的工作场合下,通过逐步细化的方能够有效提升系统的鲁棒性和泛化能力。 - **研究探索阶段**:科研人员往往倾向于先建立易于拆解验证的基础框架来进行假设测试和技术迭代,因此初期实验更多会考虑使用二段结构以便于观察各个组成部分的表现特性。 ```python # Python伪代码展示两种模下的基本流程对比 def one_stage_end_to_end(input_data): output = model.predict(input_data) # 直接预测结果 return post_process(output) def two_stage_end_to_end(input_data): features = feature_extractor.extract_features(input_data) # 提取特征 prediction = decision_maker.make_decision(features) # 做出决定 return refine_output(prediction) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值