自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4781)
  • 收藏
  • 关注

原创 华科&港大提出UniLION:基于线性组 RNN 的统一自动驾驶模型

对于最强的时序多模态UniLION,在所有评估任务中均达到了最先进或极具竞争力的性能表现:检测任务达到75.4% NDS和73.2% mAP,跟踪任务达到76.5% AMOTA,地图分割达到73.3% mIoU,占用预测达到51.3% RayIoU,车辆运动预测达到0.57 minADE,行人运动预测达到0.37 minADE,以及规划任务中极低的0.18%碰撞率,值得注意的是,我们在规划任务中没有使用自车状态信息。这种统一的范式自然简化了多模态和多任务自动驾驶系统的设计,同时保持卓越的性能。

2025-12-25 17:31:36 463

原创 业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?

去年大部分自驾VLM/VLA方向的工作都在基于SFT微调,数据量大的全参微调,数据量小的基于LoRA微调。:提出AutoDrive-R²这一VLA框架,通过“监督微调+强化学习”两阶段训练,结合含自我反思的CoT数据集与物理基奖励机制,解决现有VLA模型推理不足和轨迹物理不可行的问题,实现精准轨迹规划。:针对VLMs在自动驾驶运动规划中过度依赖历史输入、推理与规划结果错位的问题,提出Drive-R1模型,通过包含长短链推理数据的监督微调与强化学习框架,实现场景推理与运动规划的衔接。

2025-12-24 17:20:33 419

原创 双SOTA!GenieDrive:物理一致的自动驾驶世界模型(港大&华为诺亚)

同时,通过在视频生成阶段引入归一化多视角注意力机制,在 4D Occupancy 的引导下显著提升了多视角视频生成质量,将 FVD 指标降低了 20.7%。GenieDrive 分别训练了三种仅在视频长度上不同的模型规模:S 模型可生成 8 帧(约 0.7 秒)视频,M 模型可生成 37 帧(约 3 秒)视频,L 模型可生成 81 帧(约 7 秒)视频,并通过逐步滚动预测进一步扩展,实现了最长 241 帧(约 20 秒)的多视角自动驾驶视频生成。在实验中,分别输入左转、直行和右转三条轨迹。

2025-12-24 08:58:19 617

原创 深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球编辑 | 自动驾驶之心首先看上图,展示了Tesla标准的端到端自动驾驶方案,其中Large Neural Network可以为LLM(Large Language Model),也可以为非LLM架构,总之是一个具有强大表征能力的大规模神经网络。这种架构通过直接从传感器输入到控制输出的映射,避免了传统模块化系统的复杂性和错误累积问题。然而,这种端到端架构在实际部署中面临着如下三大核心

2025-12-23 08:53:25 704

原创 港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Zhe Liu等编辑 | 自动驾驶之心空间智能,是近期人工智能的一大热词。究其本质,我们需要AI对物理世界更高维度的理解,不仅局限于图像、文本和音频。在自动驾驶中,空间理解是底层的需求。柱哥这几天看到了港大领衔的一篇工作 - DrivePI,分享给大家。这篇工作由香港大学领衔,深度联手引望(原华为车BU)、天津大学及华中科技大学共同打造,以全能的 4D 空间感知能力,

2025-12-22 17:18:36 823

转载 DiffusionDriveV2核心代码解析

对于轨迹上距离较远、坐标值较大的点,相同的乘法噪声会产生更大的绝对扰动,反之亦然,从而自然地保持轨迹的连贯性和平滑性,如图 3(b) 所示。简单地在每个点上添加相同的加性高斯噪声,会导致轨迹的结构完整性被破坏,使其变得不连贯且“锯齿状”(jagged),如图 3(a) 所示。然而,由于轨迹的近端段与远端段存在固有尺度不一致性,直接在每个点施加加法高斯噪声会破坏轨迹的结构完整性,降低探索质量。: 传统的扩散步骤是不断地在每一个都加入一些噪声,而在本文中是基于anchors的位置加入高斯噪声的。

2025-12-22 11:23:00 48

转载 世界模型工作正在呈现爆发式增长

现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。行业内的痛点是什么?我们从世界模型的场景表征开始,进一步扩展到Transformer、BEV感知等,在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识,也为后续章节的展开奠定基础。这门课程是首个面向端到端自动驾驶进阶实战教程,我们期望能够推动端到端在工业界中的落地,助力更多想要加入到自动驾驶行业的同学真正理解端到端。

2025-12-20 10:14:59 45

转载 转行具身最好的机会在昨天,其次是现在...

星球内部的成员来自国内外知名高校实验室、具身相关机器人头部公司,其中高校和科研机构包括但不限于:斯坦福大学、加州大学、清华大学、西湖大学、上海交大、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学等;除此之外,还针对具身感知、触觉感知、导航、问答、大模型、视觉语言模型、端到端、机械臂抓取、控制规划多个领域的开源数据集进行了汇总,再也不用担心找不到可用的数据集了。星球内部为大家汇总了各类国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向。

2025-12-20 10:14:59 22

转载 同济孙剑团队首创!三层框架解析端到端自动驾驶训练生态

作者 | 黑客与作家 来源 | 自动驾驶数据挖掘 原文链接:【E2E训练】首创!同济孙剑团队三层框架解析端到端自动驾驶训练生态! 点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球本文只做学术分享,如有侵权,联系删文破解“训练碎片化”痛点!现有端到端自动驾驶(E2E-AD)训练存在数据堆砌、策略孤立、平台割裂三大问题,导致模型泛化弱、部署难。同济大学+UNC联合发布Data-Strategy-Platform三层训练生态框架,实现

2025-12-20 10:14:59 58

转载 元戎启行获国内头部Tier 1战略投资......

元戎能做到这么快的增速,一是吃到了技术红利,元戎在技术上一直瞄准做前沿技术,从无图、端到端到VLA,所以每年技术路线切换的时候就能受到车企青睐;百万是一个重要的门槛,除了市场份额的意义,更重要的是构建数据壁垒的优势。这是新技术量产上车的底层规律。产投资本和产业资源开始加速向优质的城市NOA供应商聚拢,背后是城市NOA的普及迎来爆发的拐点,将超越高速NOA成为市场最主流的方案。25年全民智驾的普及浪潮,城市NOA定点项目也跟着放量,一个直接的市场效应是头部智驾公司在手的城市NOA项目订单超过百万辆。

2025-12-20 10:14:59 46

原创 奔驰&图宾根联合新作!SpaceDrive:为自动驾驶VLA注入空间智能

实验表明,与现有VLM/VLA类方法相比,SpaceDrive在nuScenes开环评估中取得了SOTA性能,并在Bench2Drive闭环评估中以78.02的驾驶得分位列第二,显著提升了规划的几何精度与安全性。它既忽略了数值的连续邻近结构(例如"3.72"比"3.12"接近"3.82"),也会把不同位的 token 重要性平均化(例如"3.82"中"3"和"2"的Loss权重相同),从机制上拉低了连续数值预测精度与稳定性。,可以有效连接感知的视觉空间与规划的物理空间。

2025-12-19 13:46:00 707

原创 清华UniMM-V2X:基于MOE的多层次融合端到端V2X框架

感知层面与预测层面的融合共同构成了一个统一的多级融合框架,使智能体能够在整个决策过程中实现有效的协作,显著提升了端到端系统在复杂多车环境下的可靠性。BEV 编码器和motion解码器均配备了 MoE 架构,其中编码器生成为各种下游任务量身定制的任务自适应 BEV 特征,解码器采用不同专家来建模多样的运动模式,从而增强了多级融合的有效性和适应性,以实现更稳健的规划性能。,多级融合确保了高质量的中间特征在整个框架中传播,从而实现了所有模块的性能提升。更重要的是,UniMM-V2X 展现了卓越的安全性,

2025-12-19 08:04:14 724

转载 博世拿下百亿ADAS订单

对于丰田而言,选择智驾供应商的逻辑早已超越单纯的技术参数比拼:技术能力只是入门的“入场券”,能否构建覆盖全球核心市场的合规网络、能否精准匹配不同区域的本地化需求、能否搭建本地化的运营生态,才是决定合作成败的“胜负手”。对于拥有庞大混动车型与油车体量的丰田而言,博世不仅是智驾方案提供商,更是能深度协同动力系统的“天选队友”,这种先天的协同优势,是其他供应商难以企及的。两者的联手,本质是全球汽车产业“顶流资源”的战略锚定,更是丰田以全球龙头身份,为智驾全球化时代的供应商选择立下的“行业标尺”。

2025-12-19 08:04:14 35

转载 端到端落地中可以参考的七个Project

由于无法保证模型直出会有100%的准确率,因此会通过一些轨迹的平滑优化算法来使得最终输出的轨迹更加的稳定和可靠,本章会介绍目前一些常用的轨迹平滑算法,既有多模态轨迹打分搜索的算法,也有轨迹平滑的算法。最后的一章重点会对量产的一些经验进行分享,会从数据、模型、场景、规则等多个视角来剖析如何使用合适的工具和手段解决相应的问题,当面临一个实际的可落地的系统时,如何更合理的选用不同的策略和方法,从而能够快速提升一个系统的能力边界。而在端到端时代,感知任务的合并,规控算法的learning化已是绝对的主流。

2025-12-19 08:04:14 36

转载 Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......

我们在世界模型方面的最新进展,结合了两者的优点:既捕捉了真实环境的静态和动态特性,又能生成逼真的反事实场景,从而扩展了现实世界测试的覆盖范围。它允许我们获取真实的驾驶序列,并通过精确、参数化的变体重现这些序列——例如,在场景中所有其他元素保持完全一致的同时,改变自车的轨迹。随着驾驶模型的改进和可观测错误的减少,得出具有统计学意义的结论所需的测试里程数急剧增加。为了支持这种能力,GAIA-3 的训练计算量是 GAIA-2 的五倍,数据量大约是 GAIA-2 的两倍,覆盖了 3 大洲的 8 个国家。

2025-12-19 08:04:14 44

转载 特斯拉再一次预判潮水的方向

理想最开始的VLM其实就是包含了2个模型,端到端和VLM,也就是所谓的快慢思考,端到端负责快思考,快决策,VLM负责慢思考,然后把结果反馈给端到端,由端到端来完成决策,而VLA就是一个模型思考和决策。现在大部分 VLA、VLM 的做法,是先有一个语言模型基座,然后在一些图像数据上训练一个插件,把视觉转成语言,再输入到语言模型里。到这,其实整体的架构已经就比较清楚了,端到端是自动驾驶真正由人工进入智能的开始,VLA是端到端基础上进一步加入了语言模型,而世界模型是对空间的理解和重塑,跟前两者是完全不同的东西。

2025-12-18 17:34:00 40

转载 开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得

通过聚合所有注意力头的得分并进行L1归一化,生成目标分布pₜ,:,再以KL散度损失(ℒ¹)训练索引器,使其输出与目标分布对齐,确保索引得分的可靠性;这种轻量化设计让闪电索引器在保持相关性判断准确性的同时,实现了极高的计算效率。,这种机制在处理长序列文本时,计算复杂度会随序列长度的平方增长(O(L²)),不仅导致推理速度缓慢,更限制了模型在长上下文场景中的部署与后续训练优化。"的双组件设计,在保持模型性能的同时,将核心注意力计算复杂度从O(L²)降至O(Lk)(k为选中的token数,远小于序列长度L)。

2025-12-18 17:34:00 52

原创 纯图像理解的时代该翻篇了!MMDrive:给自动驾驶装上「多模态大脑」

只看图说话”的自动驾驶视觉模型,在真实路况中够用吗?目前主流的自动驾驶视觉语言模型(VLM),大多沿用“图像+文本”的双分支架构:视觉编码器提取图像特征,文本编码器理解问题,两者拼接后输入大语言模型生成答案。或许在不远的将来,你的车子不仅能“看见”路,还能“理解”路上发生的一切,并像老司机一样,用自然语言告诉你:“前面施工,咱们慢慢走,右边那台车可能要变道。TMM通过将多模态特征投影到潜在空间,生成文本问题驱动的自适应融合权值,通过加权求和进行跨模态交叉注意,增强多模态场景表示能力,实现多模态融合。

2025-12-18 11:18:00 550

原创 世界模型是一种实现端到端自驾的途径......

现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。行业内的痛点是什么?我们从世界模型的场景表征开始,进一步扩展到Transformer、BEV感知等,在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识,也为后续章节的展开奠定基础。这门课程是首个面向端到端自动驾驶进阶实战教程,我们期望能够推动端到端在工业界中的落地,助力更多想要加入到自动驾驶行业的同学真正理解端到端。

2025-12-18 11:18:00 271

转载 许华哲,抓紧时间慢慢等具身的未来......

我有一个不好的直觉,我们要评估我们的技术是不是落后,但我想这里,我有责任,学术界的其他人也都有责任。同样的逻辑,也适用于世界模型,我从不相信我们能够从人类采集好的数据里面训练出一个足够好的世界模型,相反,我们需要机器人真正地自主与世界交互,才能找到真正属于自己的世界模型。就像前面说的速率上的不协调,回望2025的具身智能,我发现了好几个这样不协调的相互映照的“对子”。当然,我们不能否定现有落地的价值,因为很多向具体场景的落地无论未来的智能模型有多强,都还是需要比较高的迁移成本的,这个路早趟过去也是好的。

2025-12-18 08:04:50 29

转载 清华&小米DGGT:0.4秒完成4D高斯重建,性能提升50%!

在Waymo数据集上的定性与定量评估(见表1)表明:以往的前馈式静态重建方法(如 MVSplat、NoPoSplat、DepthSplat)在存在大范围运动目标的场景中难以维持时间一致性,且会产生明显的错配与伪影;相比之下,DGGT能够在渲染级别上实现对静态与动态成分的有效分离,保持帧间外观与几何的一致性,从而显著提升整体视觉质量与重建稳定性。在定量指标上(表2),DGGT 在场景流估计上的EPE_3D为0.183 m,明显优于多种既有方法,证明了通过渲染监督学得的稠密三维对应具有良好的可靠性与精度。

2025-12-18 08:04:50 29

原创 从具身到自驾,VLA和世界模型的融合趋势已经形成......

工业界,华为鼓吹自己的 World Model 很牛,小鹏已经开始做所谓的 VLA2.0,前些日子,大家都在争论到底哪个方案才是终局,但其实两者并非水火不容,其实理想前一阵子的发布会也已经展示了这部分的理解,之后还会有多少玩家会陆陆续续入局呢?:当前基于视觉-语言-动作(VLA)的端到端自动驾驶模型普遍采用文本链式思考(CoT)进行推理,但这将丰富的连续视觉信息压缩为离散的文本符号,导致空间-时间关系模糊、细粒度视觉细节丢失,造成感知与规划之间的“模态鸿沟”。而且也并非是水火不容的关系,而是高度的互补。

2025-12-18 08:04:50 780

转载 AI Day直播 | 自动驾驶空间检索新范式SpatialRetrievalAD

在实验中,首先通过谷歌地图API检索地理图像,扩展了nuScenes数据集,并将新数据与自车轨迹对齐。其中在线建图mAP提升13.4%,占用预测静态类mIoU +2.57%,夜间规划碰撞率从0.55%降至0.48%,为复杂场景自动驾驶提供低成本、高鲁棒的感知增强方案。然而,这种模式受行驶过程中的感知范围限制,在视野受限、遮挡或黑暗、降雨等极端条件下常出现性能失效。这些图像可从离线缓存(如谷歌地图或已存储的自动驾驶数据集)中轻松获取,无需额外传感器,是现有自动驾驶任务的即插即用型扩展方案。

2025-12-17 11:18:00 22

原创 北交&地平线提出DIVER:扩散+强化的多模态规划新框架

该方法将扩散模型的多模态生成能力与强化学习的目标约束机制相结合,将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题”,从而能够在统一模型中生成多样、可行且符合驾驶语义的候选轨迹。实验结果表明,DIVER 在 Bench2Drive、nuScenes 等多个公开基准上显著提升了端到端规划的轨迹多样性与安全性,在保持低碰撞率的同时有效拓展了行为覆盖范围,并在闭环评测中展现出更强的复杂场景适应能力,为构建更灵活、更接近人类驾驶决策模式的端到端自动驾驶系统提供了一条新的技术路径。

2025-12-17 11:18:00 264

原创 复旦最新一篇DriveVGGT:面向自动驾驶,高效实现多相机4D重建

其次,虽然在自动驾驶系统中,摄像头相对位姿的标定是易于获取的,但这些相对位姿无法直接在前向方法中使用。因此,为了建立车辆上所有摄像头之间的位姿关系,我们提出了多相机一致性注意力模块,将相对位姿作为额外的位姿标记注入到每个图像中。为了在多相机系统中充分聚合相机相对位姿,我们提出了一种带有相对位姿的多相机视觉几何变换器,以实现相对位姿与来自 VGGT 的几何标记之间的有效融合。在 nuScenes 数据集上的综合评估表明,与之前的前馈方法相比,DriveVGGT 取得了更优的性能,同时保持了较低的计算消耗。

2025-12-17 08:01:50 1057

原创 华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Haoyu Fu等编辑 | 自动驾驶之心华科&小米的一篇新工作MindDrive,提出了一种基于在线强化学习的VLA框架。相比RecogDrive、ORION提升了不少,在Qwen2-0.5B的基座上效果挺不错的。当前自动驾驶领域VLA的相关工作主要依赖模仿学习,这会带来分布偏移和因果混淆等固有挑战。在线强化学习通过试错学习为解决这些问题提供了一条极具潜力的途径。然而

2025-12-17 08:01:50 235

转载 文远知行韩旭:中国真正L4只有3家......

当时只有Xavier,大约70TOPS,今天有Thor,单卡1000TOPS+,L4的算力大约是在3000tops左右,所以双Thor已经到了L4的级别,这样一来L4和L3或ADAS所需要的硬件门槛迅速降低。毕竟文远早就构建起通用AI司机体系,在感知识别、决策规划等等环节复用算法,无论L2L4、无论乘用货运,基础模型使用相同的数据来训练迭代,后续的仿真测试等等环节,也可以用统一的工具。所以一段式端到端,是文远探索更进一步的规则+模型的多元技术体系,自证L2+的泛化性、L4的安全性可以共存的落地第一步。

2025-12-16 17:25:00 74

转载 做了一份3DGS全栈学习路线图,包含前馈GS......

所以本章节先从计算机图形学的基础讲起,三维空间的隐式表达和显式表达、渲染管线、光线追踪、辐射场渲染都是什么,这些技术概念和3DGS的联系是什么。整体上第二章的设计思路是带大家先打好基础,先详细梳理3DGS的原理部分及核心伪代码,接着讲解动态重建、表面重建、鱼眼重建和光线追踪的经典文章和最新的算法,由点及面层层深入。但3DGS的技术迭代速度远超想象,静态重建3DGS、动态重建4DGS、表面重建2DGS,再到feed-forward 3DGS。经过前三章的学习,我们梳理完了3DGS的理论基础和主流技术方向。

2025-12-16 11:16:00 80

原创 理想一篇OCC世界模型:全新轨迹条件稀疏占用世界模型SparseWorld-TC

近年来,基于注意力的Transformer架构在语言和视觉领域的成功,为自动驾驶世界模型提供了全新思路——能否直接利用稀疏表示绕过中间表示,实现更灵活的时空建模?这是一个值得深入探索的方向。本论文的核心贡献在于成功设计了一种纯注意力驱动的架构,彻底摒弃了传统BEV表示和离散令牌化的限制,实现了更灵活高效的时空建模。特别是SparseWorld-TC-Large*版本(集成DINOv3骨干网络),在mIoU指标上达到29.89%,超越了许多基于真值占用的方法,这充分证明了我们方法的实用性和先进性。

2025-12-16 11:16:00 943

转载 手搓了一辆自动驾驶全栈小车,面向科研......

而一些教学套件虽然价格适中,却不够完整,光配置环境和学习操作就要耗上几个周,项目还没开始,热情就被磨平了。现在下单还直接赠送模型部署 + 点云 3D 检测 + 多传感器融合 3 门硬核课程,优先锁定名额即刻安排组装发货,想把自动驾驶项目落地的同学,这次可别错过啦~自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。

2025-12-16 08:01:52 19

原创 SOTA!FaithFusion:即插即用的生成重建统一框架(百度&南大)

这一过程相当于对 3DGS 模型进行一次全面的“诊断扫描”,生成的 EIG 图就像一张“问题定位地图”,精确标记出哪些区域是“信息盲区”(高不确定性区域),哪些区域是“信息可靠区”(低不确定性区域)。在三维场景重建领域,3D 高斯泼溅(3DGS)的高保真几何能力与扩散模型(Diffusion)的外观生成能力结合,已是新视角合成的主流路径,但因缺乏像素级、3D 空间一致的编辑准则,常出现过修复(篡改可信区域)和几何漂移(未观测区域失真)问题。,将抽象的熵值概念转化为可计算的矩阵行列式形式;

2025-12-16 08:01:52 718

原创 十余所机构联合提出WorldLens:评测了所有开源自驾世界模型(中科院&新国立等)

为使客观指标与人类对齐,WorldLens进一步构建了WorldLens-26K数据集——包含大规模人类标注视频,附带量化评分和文本说明,并开发了WorldLens-Agent评估模型,通过蒸馏这些标注数据实现可扩展、可解释的评分。通过LoRA-based监督微调,将人类的感知与物理判断蒸馏到Qwen3-VL-8B模型中,使其内化真实感、合理性、行为安全性等评估准则,提供一致、人类对齐的评估结果,为未来世界模型基准测试提供可扩展的偏好基准。为给基准建立可靠的人类监督,我们设计了结构化多阶段标注流程。

2025-12-16 08:01:52 681

转载 聊聊关于 Agentic RL 训推框架的一点看法和思考

在上图中可以看到,当 rollout 产生 1 个 batch 数据(这里是 4)后训练引擎异步开始训练,当训练引擎完成训练时需要将新的模型权重传递给推理引擎,但这时推理引擎还在进行推理任务,partial rollout 的含义就是对正在 rollout 过程中的任务进行截断,保留已经 rollout 完成的那部分数据,暂停推理引擎的使用,开始从训练 rank 广播新的模型权重给推理 rank 进行模型参数更新,这个过程中训练引擎不受影响继续异步训练。这里不一一介绍,根本上都是PPO算法的变体。

2025-12-16 08:01:52 34

转载 45万亿!中国智驾的新风口来了

商业上正从单点工具发展为跨场景运力平台,融入共享经济与多业态联动,逐步从低速封闭场景向中高速开放场景推进,预计2035年中国L4及以上智驾市场规模将超过45万亿元,渗透率达13%以上。在客单价25元、日接单17笔的假设下,单车年营收可超15万元,年均成本约12万元,毛利润约3万元,毛利率21%,接近传统出租车水平。一辆49座Robobus在60%满座率下,年营收预计近70万元,年成本约51.3万元,毛利润超17万元,毛利率可达25%。园区场景中,L4智驾可替代人工清扫,年节约成本11%;

2025-12-15 19:33:12 46

转载 没有好的科研能力,别想着去业界搞自驾了......

端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷达、单目感知、车道线/在线高精地图等方向。论文中已有多篇被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶会顶刊收录。如果您有任意论文发表需求,支持带课题/研究方向咨询,欢迎联系我们,更多论文辅导内容,欢迎咨询科研助理,中科院1区,2区,3区,4区;

2025-12-15 19:33:12 35

原创 小鹏最新一篇基于潜在思维链世界模型的FutureX,车端可以借鉴...

大量实验表明,FutureX在不影响效率的前提下,能增强现有方法的性能,生成更合理的运动规划,减少碰撞事故,实现整体性能的显著提升——例如,在NAVSIM数据集上,FutureX使TransFuser的预测驾驶员模型得分(PDMS)提升了6.2。随后,基于潜在世界模型,在潜在场景特征空间内直接执行潜在思维链推理,实现对捕捉环境动态的丰富时空表征的推理。在人类认知中,驾驶员在执行任何操作前,都会在脑海中模拟可能的未来场景:预测周围车辆的运动趋势、场景的演变方向,以及每种可能行为的潜在结果(图1第一行)。

2025-12-15 14:00:20 883

转载 世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)

这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案例。每一种流派在当前业界的应用,能解决什么问题,处于自驾的哪个环节。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。我们从世界模型的场景表征开始,进一步扩展到Transformer、BEV感知等,在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识,也为后续章节的展开奠定基础。

2025-12-15 14:00:20 60

转载 理解 RL学习的本质!

基础模型和RL模型的对比,就像是通才(generalist)和专才(specialist)的对比,在解决具体领域问题的时候,往往还是专才能堪大用,我们也会容忍专才的偏执和狭窄的视野。论文发现,在 @1的时候,RL模型的表现都会好于基模,但是随着K的增大,和基模的表现越来越接近,直到在K较大时RL被基模超越。而基础模型不能解决的问题,RLVR的模型一样不能解决。更进一步分析模型的精确度分布,我们发现RL的模型呈现两极分化的特征:在高精确度上特别集中,而在低精确度上的表现不如基模,精确度为零的概率反而较高。

2025-12-15 08:02:05 20

原创 复旦&上交最新!一篇长达40页的自动驾驶空间检索范式SpatialRetrievalAD

同样,近年来的自动驾驶世界模型在自车偏离记录日志较大时,难以生成新颖场景,这一局限源于车载视野的狭小范围,限制了其作为闭环评估和强化学习模拟器的应用能力。图11显示,随着先验可用性的降低,模型性能平稳下降。将UniMLVG和MagicDriveDit (针对MagicDriveDit,我们将测试集采样步长调整为13,以避免重复采样近重复片段)与地理图像进行条件关联后,模型的视频弗雷歇距离(FVD)和inception距离(FID)均降低,有效防止了场景漂移,在滚动生成过程中保持了几何一致性(如表5所示)。

2025-12-15 08:02:05 722

转载 理想下一步的重点:从数据闭环到训练闭环

世界模型提供的仿真环境、3D资产构建多样化的场景、SimAgents做交互式行为建模、奖励模型准确的反馈泛化能力、GPU工程加速推理。回顾了理想汽车智能驾驶的发展路线,从规则时代的轻图和无图,再到基于AI的E2E+VLM快慢双系统和VLA,目前已经有15亿公里的驾驶数据,200+的Trigger来生产15-45s的Clip数据。目前理想的端到端量产版本MPI已经到了220+,相比于24年7月底的版本,下面介绍的是数据闭环的价值。主要还是长尾场景的收敛问题,交通管制、烟花燃放、突然的变道等等。

2025-12-14 10:01:49 32

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除