- 博客(5011)
- 收藏
- 关注
转载 黄仁勋:芯片公司的时代已经结束了
然后一年后,你看到的是 Vera Rubin 机架:它有存储加速器,有全新的 CPU Vera,有 Vera Rubin 和 NVLink 72 来运行大语言模型,还有一个新的附加机架 Rock。我想提醒他们,你工作的目的和你用来做工作的任务和工具是相关的,但不是一回事。人类生成的数据在训练中占比会越来越小,我们用于训练模型的数据总量将继续增长,直到我们不再受限于数据,训练的瓶颈变成了算力,原因正是大部分数据是合成的。"你知道,我的工程师,他们的兄弟在那家公司,他们的朋友在那家公司,他们都是校友。
2026-03-26 17:05:16
5
转载 世界模型最新综述(自动驾驶/具身智能等)
与很多只聚焦单一场景或单一方法路线的文章不同,这篇综述从整体视角系统回顾了 AI 中世界模型的发展,并将现有方法归纳为四大分支:观测层生成式世界模型、潜空间世界模型、强化学习驱动的世界模型,以及对象中心世界模型。直接在观测层面建模未来世界的路线,将世界模型与图像、视频、语言以及更高维场景生成紧密联系起来。对现有世界模型进行了清晰的技术分类,将现有范式分为观测层生成式世界模型、潜空间世界模型、强化学习驱动世界模型以及对象中心世界模型,并对世界建模范式、方法、关键功能以及预期的世界模型进行了深入和系统的概述。
2026-03-26 17:05:16
4
转载 自动驾驶之心实习生招募|上海线下,一起做点真东西
自动驾驶之心是业内头部的垂类自媒体平台,过去一年,我们梳理了端到端、VLA、世界模型、强化学习等前沿方向的最新进展,也分享了行业概况、融资、产品、政策等很多内容。自动驾驶之心是国内最大的自动驾驶技术学习社区,4500+星球成员,覆盖头部公司、顶尖高校。我们不只做内容,也在做行业交流、算法落地、技术分享。如果您有兴趣和我们一起成长,欢迎添加天哥微信:wenyirumo,注明“方向:自动驾驶 / 具身智能 / 大模型 / 机器人控制。参与内容创作与技术分享,积累作品与影响力。如果你在上海,硕博在读,方向是。
2026-03-25 18:11:16
4
原创 前馈GS开始落地了,理想最新的StreetForward解析......
每一帧先经过 DINO 编码器得到 patch token,再送进 VGGT 风格的 alternating-attention backbone,也就是交替做 frame-attention 和 global-attention,先把跨帧和帧内的信息聚起来。这个部分是说:StreetForward 不是先分动静态、后建图,而是先把整幅图都变成 Gaussian 候选,再用后面的动态概率把疑似动态区域筛掉,最后融合出全局静态高斯集合。动态场景里,尤其是行人和车辆交错穿行时,前向和后向的信息本来就不对称。
2026-03-25 08:29:11
412
原创 小鹏最新的X-World,在认真做世界模型......
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球小鹏GWM团队的一篇很重磅的世界模型工作,基本上cover了世界模型在自动驾驶中的大部分应用,从闭环仿真、数据生成,再到在线强化学习。整体看下来,X-World是一篇做大规模世界模型的工作,已经把上下游串了起来,并且在VLA2.0上做了验证,推荐大家仔细读读。在自动驾驶的端到端时代,可扩展且可靠的评测很重要,因为VLA策略能够直接将原始传感器数据流建模为驾驶动作。然而,当前的评测流
2026-03-24 11:02:43
268
原创 狂卷AI熬过生死关,小鹏的阳谋已成?
站在2026年开始的时间点上,回望过去的三年,可以总结到:小鹏的技术投入逻辑,已经不再是“为车造技术”,而是“为物理AI造底座”。从自研芯片打破算力霸权,到基座模型统一算法语言,再到机器人、飞行汽车的同步落地——小鹏赌的不是一款车的智能化,而是下一个十年AI终端的定义权。这种“去旧迎新”的背后,是深刻的基因蜕变——淡化互联网创业的随意与内耗,注入传统车企的纪律与效率,同时保留技术的创新灵魂。最终形成的“何小鹏+王凤英”双核模式,一个看未来,一个盯当下,虽仍有磨合风险,但已是目前看来最适合小鹏的治理结构。
2026-03-23 08:41:47
503
转载 VLA 还是世界模型?GTC 2026 把分歧摆上台面
同时,英伟达也官宣了自动驾驶领域新的合作伙伴,比亚迪、吉利、日产、现代等车企,将基于 NVIDIA DRIVE Hyperion 打造 L4 自动驾驶,同时与 Uber 合作的 Robotaxi 将于 2027 年上半年率先在洛杉矶和旧金山启动,并计划于 2028 年扩展至 28 个市场。谈到具身智能的大模型,王兴兴说道:「世界模型、视频生成模型的发展方向,成功概率更高,因为这两种模型的天花板高很多,甚至看不到天花板。此外,宇树开发了全身状态感知模型,还有集群控制系统,可以同时控制几十、上百台机器人。
2026-03-22 19:53:57
35
转载 CVPR 2026!地平线11篇论文入选(端到端/场景重建/世界模型/具身智能等)
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球近日,计算机视觉与模式识别领域国际顶会CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 正式公布论文收录结果。地平线凭借深厚的技术积淀与前瞻的科研布局,共有11篇论文成功入选,覆盖端到端自动驾驶、3D重建、世界模型、具身智能等多个核心领域,充分彰显地平线在前沿技术领域的顶尖研发水平。
2026-03-21 11:15:47
103
原创 自动化所 x 引望提出DynVLA:一种基于 World Dynamics的VLA推理模型
即先生成类似“前车减速、红灯亮起,因此应减速等待”这样的文本 reasoning,再输出动作。这类方法能够更直接地建模时空变化,但必须同时预测大量背景纹理和像素细节,其中大量信息与决策无关,导致计算开销巨大,推理 latency 很高。更重要的是,在大规模私有数据下,DynVLA也超过了DriveVLA-W0这一类强VLA模型,证明了其Dynamics CoT的有效性。自动驾驶中的 Chain-of-Thought,不一定是文字,也不一定是像素,而可以是 compact world dynamics。
2026-03-19 16:31:13
601
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
367
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
532
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
309
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
320
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
519
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
256
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
379
原创 复旦&引望最新!DynamicVGGT:面向自动驾驶的统一4D动态场景重建框架(CVPR‘26)
想象一下:车辆在穿行,行人在横过马路,相机本身也在运动。DynamicVGGT 利用 VGGT 原有空间几何预测能力为基础,用新增的 MTA blocks 学习动态场景运动,最后分别通过设计两种任务:未来点图预测与动态 4D 场景重建优化统一的动态点图,增强对动态场景下模型对几何预测的能力。面对这两个瓶颈,DynamicVGGT 的定位非常明确:不是替换 VGGT,而是站在它肩膀上——把"静态 3D 感知"平滑地扩展为"动态 4D 重建",同时在不依赖显式相机外参对齐的前提下,统一建模几何与运动。
2026-03-18 17:00:04
112
转载 Momenta不选VLA选世界模型
物理AI时代已经到来,因此自动驾驶技术必须要拥有对于物理世界的认知能力,所以Momenta在强化学习的基础上,引入了世界模型,让AI能够基于更完整的物理世界信息,做出更符合物理世界的预测和规划。为了打破技术瓶颈,让AI司机有希望超越人类司机,Momenta转向了强化学习,Momenta认为强化学习大模型有希望超越人,甚至大幅超越人,在去年推出了。类比人类司机,把车开好不需要一个人会写代码或者解数学题,只需要ta能理解物理世界的规律,在各种各样的场景及时做出反应,并做出安全的预判。
2026-03-18 09:09:16
31
原创 理想詹锟GTC分享的MindVLA-o1:要做面向具身智能的全景架构......
值得一提的是,理想汽车评估了接近2000种不同的模型架构配置,在NVIDIA Drive Orin与Thor平台上完成验证,成功找到模型精度与推理延迟之间的Pareto Front(帕累托前沿)—— 在给定计算预算下,模型层数、隐藏维度及MoE激活比例的最优组合方案。:自回归方式最大的弊端就是推理效率较低,所以采用并行解码的方式,将所有轨迹点一次性同时生成,这部分可以重点参考下扩散模型的轨迹生成方法,理想汽车在这个领域的探索很深,走在业内的前列;,模型通过多轮迭代不断对轨迹进行优化,类似于逐步去噪过程。
2026-03-17 17:47:08
354
原创 NAVSIM双榜SOTA!LaST-VLA:用潜在时空CoT重构VLA推理(清华&小米)
通过实现双特征对齐机制,我们将 3D 基础模型的几何约束和世界模型的动态预见能力直接提取(蒸馏)到隐式空间中。在RL阶段,我们仅使用Navsim v1的PDMS作为Reward Model,同样在Navsim v2的EPDMS上实现了最佳的性能,证明LaST-VLA不是仅仅只能拟合PDMS,还能够在EPDMS表现很好。:在判断左右(90.27%)和前后(88.00%)等空间关系任务上表现极为优异,这证明了其强大的空间组合推理能力,有效缓解了以往 VLM(视觉语言模型)中常见的空间迷失问题。
2026-03-16 17:04:44
324
原创 ICLR 2026 | FlowAD:隐空间时空世界模型构建自车场景交互新范式(上交&百度)
这一设计的最大优势在于,它允许模型在特征学习阶段就捕捉自车运动的反馈,从而无需昂贵的闭环仿真,仅利用现有的 Log-replay 数据集即可训练出具备闭环特性的模型。这种方式让规划器能够直观地“感知”自车运动对环境产生的反馈(即相对运动流),从而帮助模型理解驾驶过程中的动态交互,做出更鲁棒的决策。这得益于学习到的流动力学补充了缺失的视觉信息。最终,通过将空间流特征和时间流特征进行融合,FlowAD 获得了一个完整的、包含自车运动反馈的场景流特征,为后续的感知和规划任务提供了极其丰富的动态信息。
2026-03-14 11:02:27
278
转载 小米汽车陈光:端到端用于自动驾驶的强化认知框架(NVIDIA GTC)
下周三下午13点30分至14点20分,小米汽车HAD算法和交付负责人「陈光」将在NVIDIA GTC上分享 —— 端到端用于自动驾驶的强化认知(Reinforced Cognitive)框架。(Reinforced Cognitive)端到端自动驾驶框架:以「理解—预测—决策」一体化为目标,将。此外,我们筹备了一个GTC技术交流群,感兴趣的同学注册完成之后找助理进群,期间会在群内和大家交流~利用专门设计的AI基础设施进行快速后训练。:小米汽车提出了一套全新的。世界模型生成的长尾场景;
2026-03-14 11:02:27
57
转载 北航&清华最新!CuriousVLA:迈向可Scaling的自动驾驶VLA
结果是,在训练过程中,远距离轨迹的误差会主导整体loss,而近距离轨迹(真正决定转向与控制精度的部分)反而贡献较小。然而,Curious-VLA则在不依赖额外Action Token、不引入Diffusion Planner等复杂规划模块的情况下,仅依赖MLLM的自回归生成能力,就能够实现VLA自动驾驶的SOTA性能。在传统强化学习训练中,训练数据通常是随机采样的。按理说,在这种“纯MLLM自回归规划”的VLA模型中,强化学习应该能够进一步提升模型的策略质量,并帮助模型探索更加优越的驾驶行为。
2026-03-13 08:56:55
35
原创 小鹏刘先明挂名工作!EvoDriveVLA:通过蒸馏进化VLA,感知规划不再割裂
与之并行的基于Oracle的轨迹蒸馏则采用具备未来感知能力的教师模型,结合由粗到精的轨迹优化方法与蒙特卡洛丢弃采样策略生成高质量轨迹候选集,进而筛选出最优轨迹指导学生模型的预测任务。因此,轨迹蒸馏的核心在于。值得注意的是,零值附近的损失占比降低约50%,近30%的教师模型预测轨迹与真实轨迹间的。而DistillDrive等多轨迹蒸馏方法则通过构建Planning词汇表,促使教师模型生成多样化的轨迹输出,旨在借助结构化的轨迹候选集丰富蒸馏过程中的规划知识,缓解单一轨迹带来的表达能力受限与场景适应性差的问题。
2026-03-13 08:56:55
486
原创 9ms刷新NuPlan SOTA!上交&理想最新Vec-QMDP
真正的智能体必须在毫秒级时间内,在“信念空间(Belief Space)”中权衡这些不确定性,找到那条最安全、最流畅的路径。通过正确的决策理论结合极致的硬件底层优化,经典规划算法依然能爆发惊人的工业价值。端到端模型给策略,Vec-QMDP 在毫秒内完成万次推演进行校验,为黑盒模型套上一层高性能、可解释的安全防线。规划 1 秒容易,但预测 5 秒后的博弈,算力开销会瞬间“爆表”。,它允许不同的未来情形进行独立搜索,为大规模并行计算打开了大门。计算时间,就达到了 SOTA(行业最高水平)的决策性能。
2026-03-12 11:03:22
292
转载 预约 | 理想下一代VLA自动驾驶大模型 — MindVLA-o1
并结合基于模型的强化学习闭环与软硬件协同设计,实现可量产、拟⼈化的端到端⾃动驾驶。下周二下午14点至14点50分,理想汽车基座模型负责人詹锟老师将在英伟达GTC 2026上介绍理想最新一代VLA自驾大模型的进展,即MindVLA-o1。:随着⾃动驾驶进⼊端到端基础模型时代,系统挑战体现为对推理效率、⻓时稳定性与复杂场景泛化能⼒的整体建模与权衡。:理想自研的有LinkVLA,以及小米最近提出的基于扩散语言模型实现VLA的框架DriveFine;:猜测应该是闭环强化学习训练相关的内容,理想自研的有AD-R1;
2026-03-12 09:04:24
50
原创 刚刚!Wayve和高通宣布达成自动驾驶技术合作
此次合作将Wayve AI Driver作为端到端的AI驾驶智能层,集成到高通技术公司高性能、久经考验的骁龙Ride平台(由系统级芯片(SoC)和紧密集成的智能安全软件组成)中,打造出一套预集成系统,可满足监管要求并实现无人值守的ADAS部署,并扩展到更广泛的驾驶环境,实现无需驾驶员手动操作和视线注意的驾驶功能。我们与高通技术公司的合作,为基于骁龙Ride平台的全球汽车制造商提供了一条简化的路径,使其能够将市场领先的端到端AI自动驾驶功能与高通的Active Safety技术栈无缝集成。
2026-03-11 15:56:04
263
原创 蔚来,越过生死线
本次升级的核心,正是蔚来自研的NWM世界模型——中国首个基于多元自回归架构的生成式具身驾驶模型,已深度融合闭环强化学习技术,在小巷通行、窄路调头、人车混行等复杂场景中展现出更强的空间感知与逻辑推理能力。从李斌亲自挥刀“瘦身”,到全球业务重组,再到智驾部门核心高管接连出走,这家曾被贴上“长期主义”标签的车企,在规模扩张与效率焦虑的夹缝中,完成了一场迟来的“成人礼”。不过,我们认为更棘手的是,乐道和萤火虫其实本该承担走量使命,却在2026年初与主品牌陷入“左右互搏”——当ES8价格下探,乐道的生存空间被挤压,
2026-03-11 08:57:36
239
转载 世界模型是不是下一个“奇点时刻”?
然而,如果我们从技术上做更进一步思考,在之前的框架里,我们的端到端规划器学习如何从视觉映射到动作空间,无论是模仿学习还是强化学习,都在末端,也就是action,进行监督。然后你可以通过一些显式的方法,比如是否碰撞,是否和目标图像长得像,是否拿起了物体,或者一些基于网络的方法,比如用VLM告诉你这个未来视频有没有实现你的目标,去得到不同决策下的reward。和路径三VLA类比,路径五是提供了一种视觉思维链的方式,也和路径四一样,提供稠密监督,当然,也具备路径一所说的,世界通用知识。这种方式可能面临的担忧是,
2026-03-11 08:57:36
27
原创 今年NVIDIA GTC,将会是VLA、端到端和WAM的高光时刻
而在自动驾驶领域NVIDIA也有很多布局,端侧芯片不必多说,一方面NVIDIA去年发布了自研的推理VLA模型Alpamayo,另一方面也会邀请很多全球范围内的公司参会分享,所以今年的GTC应该能看到国内外对自动驾驶发展的一些看法,给出一些趋势类的判断。从目前的信息来看,Alpamayo应该是NVIDIA为L2 + L4准备的车端量产方案,:基座模型是提到最多的关键词,一是用于云端数据打标、筛选、挖掘、真值生成,二是蒸馏车端小模型,当然还可以赋能闭环仿真,也是本次GTC自动驾驶分享的核心,
2026-03-10 17:02:06
296
原创 中科院&CreateAI NeoVerse:百万单目视频打造通用4D世界模型(CVPR‘26)
今年 2 月,Waymo 联合 Google DeepMind 重磅发布了 Waymo World Model,基于 Genie 3 构建,能生成超逼真的多传感器仿真数据,把行车记录仪视频变成可控仿真环境,甚至能让大象、恐龙"上路"——为 Corner Case 验证提供了全新思路。从单目行车记录仪视频出发,NeoVerse 以"重建-生成"混合架构为核心,高效实现了 4D 重建与多视角生成、反事实 Corner Case 构建、自由视角漫游、场景编辑、相机抖动控制和变焦调整等丰富应用。
2026-03-10 08:53:41
261
原创 中科院&CreateAI NeoVerse:百万单目视频打造通用4D世界模型(CVPR‘26)
今年 2 月,Waymo 联合 Google DeepMind 重磅发布了 Waymo World Model,基于 Genie 3 构建,能生成超逼真的多传感器仿真数据,把行车记录仪视频变成可控仿真环境,甚至能让大象、恐龙"上路"——为 Corner Case 验证提供了全新思路。从单目行车记录仪视频出发,NeoVerse 以"重建-生成"混合架构为核心,高效实现了 4D 重建与多视角生成、反事实 Corner Case 构建、自由视角漫游、场景编辑、相机抖动控制和变焦调整等丰富应用。
2026-03-10 08:53:41
249
原创 中科院&CreateAI NeoVerse:百万单目视频打造通用4D世界模型(CVPR‘26)
今年 2 月,Waymo 联合 Google DeepMind 重磅发布了 Waymo World Model,基于 Genie 3 构建,能生成超逼真的多传感器仿真数据,把行车记录仪视频变成可控仿真环境,甚至能让大象、恐龙"上路"——为 Corner Case 验证提供了全新思路。从单目行车记录仪视频出发,NeoVerse 以"重建-生成"混合架构为核心,高效实现了 4D 重建与多视角生成、反事实 Corner Case 构建、自由视角漫游、场景编辑、相机抖动控制和变焦调整等丰富应用。
2026-03-10 08:53:41
342
原创 中科院&CreateAI NeoVerse:百万单目视频打造通用4D世界模型(CVPR‘26)
今年 2 月,Waymo 联合 Google DeepMind 重磅发布了 Waymo World Model,基于 Genie 3 构建,能生成超逼真的多传感器仿真数据,把行车记录仪视频变成可控仿真环境,甚至能让大象、恐龙"上路"——为 Corner Case 验证提供了全新思路。从单目行车记录仪视频出发,NeoVerse 以"重建-生成"混合架构为核心,高效实现了 4D 重建与多视角生成、反事实 Corner Case 构建、自由视角漫游、场景编辑、相机抖动控制和变焦调整等丰富应用。
2026-03-10 08:53:41
340
原创 中科院&CreateAI NeoVerse:百万单目视频打造通用4D世界模型(CVPR‘26)
今年 2 月,Waymo 联合 Google DeepMind 重磅发布了 Waymo World Model,基于 Genie 3 构建,能生成超逼真的多传感器仿真数据,把行车记录仪视频变成可控仿真环境,甚至能让大象、恐龙"上路"——为 Corner Case 验证提供了全新思路。从单目行车记录仪视频出发,NeoVerse 以"重建-生成"混合架构为核心,高效实现了 4D 重建与多视角生成、反事实 Corner Case 构建、自由视角漫游、场景编辑、相机抖动控制和变焦调整等丰富应用。
2026-03-10 08:53:41
505
原创 中科院&CreateAI NeoVerse:百万单目视频打造通用4D世界模型(CVPR‘26)
今年 2 月,Waymo 联合 Google DeepMind 重磅发布了 Waymo World Model,基于 Genie 3 构建,能生成超逼真的多传感器仿真数据,把行车记录仪视频变成可控仿真环境,甚至能让大象、恐龙"上路"——为 Corner Case 验证提供了全新思路。从单目行车记录仪视频出发,NeoVerse 以"重建-生成"混合架构为核心,高效实现了 4D 重建与多视角生成、反事实 Corner Case 构建、自由视角漫游、场景编辑、相机抖动控制和变焦调整等丰富应用。
2026-03-10 08:53:41
297
转载 原理想智驾一号位郎咸朋或将加入具身赛道创业......
自动驾驶之心了解到,前理想汽车SVP郎咸朋,联合前阿里集团VP|阿里云中国区总裁任庚,创业方向对标特斯拉人形机器人的全栈具身智能。一旦数据生产方式确定,以现在的人工智能水平,半年内就会出现行业共识的技术收敛路径,而那个时候将是其他传统大厂下场厮杀的时候。于现在而言,各家初创的具身公司要做好的是踩好风口,找准自己的发力方向,为后面的收购或者上市提前布局。25年,具身行业经历了几轮的技术爆发,从真机遥操、到UMI,再到最近大火的第一人称人类数据。现在是具身创业的好时机,也是剩余不多的窗口期。
2026-03-09 13:59:58
29
转载 10亿美元!Momenta或将冲刺港股上市......
25年年底,柱哥和大家聊过,L4赛道重拾资本热度。截至25年底,Momenta的量产车型超过130款,和多家全球头部车企达成合作(通用、奔驰、丰田等),城市NOA市场占有率高达61.1%。据彭博社消息,Momenta已秘密向港交所提交上市申请,计划募资至少10亿美元(约69亿元人民币),中金、德意志银行担任联席保荐人。回顾历史融资信息,Momenta投资方涵盖蔚来资本、腾讯、上汽、丰田、博世、淡马锡、奔驰等车企巨头和行业顶级财务投资者。一手抓交付,一手切L4,两条腿走路,这才是Momenta的破局之路。
2026-03-09 11:00:00
40
转载 关于世界模型增强轨迹Planning的路线探讨
大概率会有用,但因为action没有使用预测的未来世界状态的信息,效果可能比方案2要弱一些,风险估计和方案2差不多。这样其实和world VLA的建模思路非常接近,不同的是,world VLA的worldmodel (这里的Module 2)不对action反传梯度,而我们这里的world model(Module 2)可以对action反传梯度。然后自然就好了,,,甚至,你的车头是歪的,只要能盯着前方的目标,就能骑得很好。所以对于不熟悉的case,凭感觉,做出的动作可能是不合理的,甚至是危险的。
2026-03-08 11:52:57
31
转载 某智驾公司的端到端「野心」......
在23年的时候,还是手写规则的城区智驾的单车licence能卖到三四千块,24年就降了一千块只有两三千块了,25年下半年端到端的单车licence却只能卖到一两千了,有的智驾公司为了拿项目,甚至把端到端报出了一千块的价格。一位智驾公司的朋友表示,现在市场上基于五百多T算力的高性能端到端方案,单车licence报价只有一两千块,基于一百多T算力的轻量级端到端方案,单车licence报价只有几百块,城区智驾卖出了以前高速智驾的价格。>>自动驾驶前沿信息获取。编辑 | 自动驾驶之心。
2026-03-08 11:52:57
30
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅