VLA较E2E-VLM的3个提升点

作者 | 理想TOP2 编辑 | 理想TOP2

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

原作者:大懒货

原文链接:

https://weibo.com/2062985282/PgmxNm2rL

以下为原文:

【技术向】自动驾驶 领域能工程落地【VLA】视觉语言动作模型的贡献价值

~不亚于我们成功搞定千T算力的自动驾驶芯片~

VLA可能是目前从高阶驾驶辅助【L2】走向真正自动驾驶【L3及更高】的关键敲门砖

基于目前学术研究探讨:AD领域 的VLA可能的工作流

可以拿Open-VLA 这个参考图作为举例

c132da6472c802cb9afe30cbfd48e116.png

1️⃣:信息感知:
多颗摄像头视频流、导航需求、自车定位、其他传感器信息通过统一编码、对齐
进入 基于基座模型蒸馏后应对驾驶领域专一的LLM模型【参量数B至数十B?或者更高】

2️⃣:决策输出
通过驾驶领域专一的LLM模型直接输出决策、决策转换为轨迹并直接输出控制细节

VLA相较于现在的E2E-VLM 有以下几个差异【或者直接说提升的点吧】:

1️⃣:如果全局直接用VLA来控制驾驶领域,首先不需要考虑端到端模型和VLM模型握手的问题,不太可能出现在VLM告知端到端模型该怎么做,但是端到端模型不太清楚该怎么做【因为现在这个信息握手仍然是通过人工定义的方式处理】

2️⃣:VLA的模型参量相较于现在VLM有大幅度的提升,因此非常有可能在驾驶领域涌现出弱的人工智能处理能力。换句话说,针对于没有针对性训练过的场景,VLA也能通过多步骤逻辑推理、分析等方式处理。针对于复杂场景的能力会明显变强。
我们都知道现在VLM更多是通过语言模型去做场景的感知联动元动作,存在一定的弱智能和推理能力【like 有车打灯要小心、复杂路口要小心】,但是特别复杂场景的、需要长上下文背景信息的推理能力还是比较弱的,而VLA通过增加参量、基座模型专一训练成驾驶领域都可以在有限算力【OrinX/Thor】下尽可能提升驾驶领域的通用理解和思考能力,就像拥堵场景用VLA去解会比现在E2E-VLM解的表现好的多的。

3️⃣:针对于基于LLM去探索AD,针对模型的幻觉。这个肯定要用类似模型化的主动安全或者用其他强化学习的方式去兜底。既然@刘杰-理想 大王已经官宣OrinX/Thor 都可以跑通VLA。那么大概率模型化的安全兜底应该也是跑通了。

再简单总结一下⭐⭐:
通过工程落地VLA,在2025年AD Max车主能看到在驾驶场景中,车辆会具备一定深度思考、复杂推理的一套智能驾驶。通过模型推理的方式让车辆更好应对复杂场景和那些可能没有见过的场景。
因为这个世界的变量太多了,我们很难通过数据训练实现模型应对100%的场景,因为能力泛化可能就需要基于模型分析、推理、乃至涌现的方式去实现~

① 自动驾驶论文辅导来啦

cede26febe8fa5c68fb44a6fa69c65fa.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

16a9f292aa446c8386e9895084efb4e7.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

893c0f2490fe5f4293bf7fefe99d7f34.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

772ee18546528ee6cefa906e75e36a14.png

内容概要:本文档是一份基于最新Java技术趋势的实操指南,涵盖微服务架构(Spring Cloud Alibaba)、响应式编程(Spring WebFlux + Reactor)、容器化与云原生(Docker + Kubernetes)、函数式编程与Java新特性、性能优化与调优以及单元测试与集成测试六大技术领域。针对每个领域,文档不仅列出了面试中的高频考,还提供了详细的实操场景、具体实现步骤及示例代码。例如,在微服务架构中介绍了如何利用Nacos进行服务注册与发现、配置管理,以及使用Sentinel实现熔断限流;在响应式编程部分展示了响应式控制器开发、数据库访问和流处理的方法;对于容器化,则从Dockerfile编写到Kubernetes部署配置进行了讲解。 适合人群:具有一定的Java编程基础,尤其是正在准备面试或希望深入理解并掌握当前主流Java技术栈的研发人员。 使用场景及目标:①帮助求职者熟悉并能熟练运用微服务、响应式编程等现代Java开发技术栈应对面试;②指导开发者在实际项目中快速上手相关技术,提高开发效率和技术水平;③为那些想要深入了解Java新特性和最佳实践的程序员提供有价值的参考资料。 阅读建议:由于文档内容丰富且涉及多个方面,建议读者按照自身需求选择感兴趣的主题深入学习,同时结合实际项目进行练习,确保理论与实践相结合。对于每一个技术,不仅要关注代码实现,更要理解背后的原理和应用场景,这样才能更好地掌握这些技能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值