职场与思考 | 聊聊VLM/VLA和智驾新技术

作者 | 么么牛 编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/17866772378

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心大模型技术交流群

本文只做学术分享,如有侵权,联系删文

VLM和VLA的区别,有点想以像L2功能,LDW和LKA,FCW和AEB的区别,一个是只有报警,一个是能提供具体执行功能,VLM关注的重点在于环境建模,VLA除了考虑环境建模,还需要关注规划和控制问题,这是两者的区别。所以我理解VLM和VLA其实就是多传感器融合的问题,只是这个传感器换成了包含人类知识的文本。

现在市面是比较热门的技术并没有什么理论创新,只是研发人员对智能驾驶的问题认识越来越深刻,如何解决这些问题呢?这时候正好AI相关的技术成果越来越多,AI踏着七彩祥云来拯救人们了,为这些问题提供了解决方法和手段。

举几个具体的例子:

  1. 端到端,无非是以前的感知-预测-决策-规划-控制的架构会造成传递过程中对传感器输入的环境模型存在信息传递损失,而且基于规则的方法中规则是由人来设计的。能不能让信息无损传递并且不去人工设计规则呢,AI提供了解决方案,AI说用端到端,直接从图像到执行指令,信息可以无损传递,并且AI自己去理解规则而不是人工定义规则。

  2. VLM, 上面提到了,我个人理解就是一个传感器融合的问题,以前的传感器融合只有对物理世界的信息采集,融合视觉,毫米波,激光雷达,现在要加入文本,即语言。语言是人类智慧的结晶,能用语言描述出来的即是知识,利用人类积累的知识作为传感器的输入,融合人类知识和观察到的物理世界信息,这个不就是多传感器融合的事情吗?再结合端到端的思想不就是VLA了吗?

  3. 无图,现在各家智能驾驶厂商都在推无图技术,要去高精地图和高精定位。但无图并不是什么新的技术,早在1V1R时代,即单摄像头和单雷达,就是无图方案呀,现在无非是现在要开发一个更高级点的算法能建更高级的车道线,更高级的动态目标了,你说不是吗?

现在新技术的发展,是因为随着行业领先者,像特斯拉,华为这些行业领先者对智能驾驶问题的理解越来越深,越来越接近这个问题的本质,而AI正好提供了这些问题的解决方案和方法。所以目前的智能驾驶技术的发展和趋势,依旧还是AI的发展。

其实AI颠覆智能驾驶,是早在mobieye时期就开始了,mobieye依靠它先进的视觉感知技术取代毫米波雷达感知技术占主导地位后就开始了,上面聊到的端到端,VLM,无图技术依旧是AI继续颠覆智能驾驶技术的延续。

所以你现在还在怀疑AI吗?AI必将颠覆世界!

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

0d3a18d35422d32aac90eac03d651f91.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

b4fda9802db43f03c7f53a95df83ccfc.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

679c618eb7ed03335f913a1ab90d162c.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

3493dce956702f69a125ddf4d50d9f0c.png

<think>嗯,用户让我通俗解释VLAVLM。首先,我需要确认这两个缩写具体指什么。VLAVLM在不同的领域可能有不同的含义,但根据常见的科技术语,VLA通常指“Very Large Array”,也就是甚大天线阵,属于射电天文学领域的大型望远镜阵列。而VLM可能是“Vision-Language Model”,即视觉语言模型,属于人工智能领域,结合视觉语言处理。 接下来要确认用户的问题背景。用户可能是在不同的上下文中遇到这两个缩写,比如天文学AI,或者是否有其他领域的解释。但考虑到用户没有提供更多上下文,可能需要按最常见的解释来回答。 首先,VLA作为甚大天线阵,是位于美国新墨西哥州的射电望远镜阵列,由多个天线组成,用于观测宇宙中的无线电波。需要以简单易懂的方式解释其工作原理用途,比如类比成多个耳朵一起听宇宙的声音,提高观测的清晰度分辨率。 然后是VLM,视觉语言模型,如GPT-4V或CLIP,这类模型能同时处理图像文本,理解两者的关联。需要用日常例子说明,比如看图说话、图像搜索、多模态交互等,强调其在AI应用中的实际作用,比如帮助视障人士描述图片内容。 需要确保解释没有使用专业术语,让非专业读者也能理解。同时注意结构清晰,分点解释,每个部分用简短的段落,可能使用比喻或类比。检查是否有其他可能的解释,但暂时按照最常见的情况处理。最后确认是否满足用户的需求,可能需要提示用户如果有其他领域的含义,可以进一步说明。</think>我来用日常场景中的例子帮你理解这两个概念: VLA(甚大天线阵)——可以想象成一群"宇宙助听器" 相当于在美国沙漠里摆放了27台巨型卫星锅(每个直径25米),它们手拉手组成一个"超级耳朵阵"。就像我们用两只耳朵能判断声音方向一样,这些天线通过协同工作,能把宇宙中微弱的无线电信号听得清清楚楚。比如当某颗恒星爆炸时,它们能像拼图一样把爆炸的立体图像拼出来。 VLM(视觉语言模型)——相当于给AI装上了"眼睛+嘴巴" 想象你给朋友发了一张火锅照片: - 普通AI只能识别这是食物 - VLM却能说:"九宫格火锅正在沸腾,中间红汤翻滚着辣椒,周围格子里的毛肚、黄喉、鸭肠摆放整齐,隔着屏幕都能闻到麻辣鲜香!" 典型应用场景: 1. 盲人辅助:手机摄像头拍到街景,VLM会描述:"前方10米有蓝色路牌,右侧面包店橱窗里摆着牛角包" 2. 电商客服:上传衣服照片问"这件配什么裤子?",VLM能结合款式给出建议 3. 智能巡检:看到输电线路照片自动报告:"3号塔基有鸟巢,7号绝缘子表面有裂纹" 两者本质区别: • VLA是物理世界的观测工具(用金属探测电磁波) • VLM是数字世界的理解工具(用算法连接视觉语言) 有趣的是,现在有天文学家正在尝试用类似VLM的技术,让AI自动分析VLA采集的海量宇宙数据,这种跨界组合说不定哪天就发现了外星文明信号呢!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值