- 博客(3690)
- 收藏
- 关注
转载 北师香港浸会大学招收25秋季人工智能博士
项目介绍:BNBU研究型硕博具体要求参考官网介绍https://gs.uic.edu.cn/graduate/graduate1/yjxyjskc/Computer_Science_and_Technology.htm,亮点是全奖学生学费全免,博士每月津贴8300RMB,硕士6000RMB,提供会议交流津贴和补助等等。研究介绍:我的研究兴趣集中在三维视觉和生成式AI以及两者交叉领域,目前正在主持国自然青年基金一项以及若干合作课题,在ICCV、CVPR、ICRA、TIP等会议和期刊上有多篇论文发表。
2025-03-27 07:30:26
19
转载 当我们在谈VLA的时候,都有哪些技术栈?
这类端到端的范式依赖于先前广泛的研究先验,通过不同架构(diffusion/ transformer/dit),不同的模型大小,不同的应用场景(2d/3d),不同的任务需求(从头训/下游微调),产生了各类不同的方案,取得了不错的性能。无论是显示端到到VLA,还是隐式/分层端到端VLA,其中涉及到的模块、细节众多。隐式端到端VLA,则不同于前者,更加关注工作的可解释性,旨在利用当前的video diffusion模型实现未来状态的预测,再根据未来的状态通过逆运动学规律生成未来可执行的动作。
2025-03-27 07:30:26
17
转载 中山大学&鹏城实验室 | 面向主动探索的可信具身问答~
具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!,这是一个高质量、大规模的 EQA 基准,支持主动探索,解决了现有数据集存在的答案模糊性问题,并减少了对静态先验知识的依赖。,结合粗粒度边界探索和细粒度目标导向探索,提升了导航效率,实现对任务相关区域的精细探索,建立了 EQA 任务新的基线。
2025-03-26 07:30:36
40
转载 VINS作者、上海交通大学秦通老师带你搭建一套自主代客泊车系统
课程的每章会配备相应的实践项目,包括泊车所需软件环境安装、泊车定位、泊车感知、泊车建图、规划与控制,最后将每一章节的实践内容串在一起,在仿真环境中,实现一个完整的自主代客泊车系统。:自动化、计算机、人工智能、车辆工程等专业的本科生或研究生,希望掌握自主泊车系统开发技术并进行相关研究或实践;包含相机模型、语义分割、语义定位与建图、规划与控制等核心算法的理论讲解,并且也会分享端到端泊车的新技术,1. 覆盖自主泊车的全栈技术体系,从系统设计到核心模块的梳理;课程的实践项目,该课程覆盖自主泊车的全栈技术体系,
2025-03-26 07:30:36
49
原创 世界模型再进化!MiLA:突破智驾视频生成壁垒(南大&小米)
为此,我们提出MiLA——基于潜在扩散模型 (Latent Diffusion Models, LDM)的鲁棒视频生成框架,仅依赖简单场景描述或路径点(waypoints)控制信号,生成长期高保真视频(图1对比了MiLA与Vista的生成效果)。如图3所示,MiLA基于输入的参考帧生成多视角未来帧,其中V、N、S分别表示视角数量、条件帧数和总噪声帧数。在本文中,我们提出了MiLA——一种基于世界模型框架的驾驶场景视频生成方法,能够根据先前帧和未来路径点生成视频。:通过锚定帧生成与插值分离的策略提升效率。
2025-03-26 07:30:36
619
转载 自动驾驶闭环仿真指南!国内首个3DGS全栈教程:四大体系全掌握~
又是如何渲染出二维图像?为此,我们选择了当下应用最广泛的gsplat,其对3DGS的pytorch版本进行了代码重构的开源项目,并提升了原版代码的训练效率,且仓库十分活跃,目前已经支持很多主流算法,非常适合科研及工程应用。动态场景重建能够建模物体随时间运动的变化,世界不是静止的,物体在移动,色彩在变化。为此,我们联合业内头部自动驾驶公司算法专家,联合展开了业内首门面向3DGS全栈实战小班课,Cover 3DGS的各个子领域,让大家真正能够学得透彻,后期配有代码实战讲解,助力大家真正从实现的角度上搞懂算法。
2025-03-26 07:30:36
53
转载 南大&小米最新工作!MiLA:环视视频生成世界模型新SOTA!
涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!基于大型视觉语言模型(VLMs)设计自动化流水线,结合驾驶领域错误模式(如传感器误判、逻辑不一致、领域概念误解等),生成高真实性干扰项(Distractors)。
2025-03-25 07:31:13
64
转载 英伟达最新!GR00T N1:面向通用人形机器人的开源基础模型~
这表明 GR00T N1 模型在实际的类人机器人操作场景中,相较于扩散策略基线模型,能够更可靠地完成任务,同时也体现了该模型在数据稀缺条件下良好的学习能力和适应性,即不需要大量的真实世界数据就能取得较好的任务执行效果。在后训练中,还探索了使用神经轨迹增强数据的方法,为每个下游任务生成神经轨迹,并根据任务需求调整视频模型生成多视图或长视野轨迹,以提高模型在低数据场景下的学习能力。预训练:在预训练阶段,模型在多种来源的数据上进行训练,包括标注的视频数据集、合成生成的数据集和真实机器人轨迹。
2025-03-25 07:31:13
84
原创 强强联手!清华&UCLA&NTU推出V2X-Radar数据集:重新定义车路协同感知边界~
为支持多种感知任务研究,数据集被细分为用于协同感知的V2X-Radar-C子数据集、用于路侧感知的V2X-Radar-I子数据集和用于单车感知的V2X-Radar-V子数据集,并对相关感知算法进行了基准测试。(3) 我们分别在V2X-Radar-C协同感知、V2X-Radar-I路侧感知和V2X-Radar-V单车感知三个子数据集上,针对现有算法开展了实验验证,并构建算法基准,以促进该领域的后续研究。这类问题的本质在于,单车仅能通过单一视角感知环境,无法获取全局信息,从而影响导航决策的可靠性。
2025-03-25 07:31:13
746
原创 思维链再进化!极简推理范式Chain of Draft:推理token爆砍80%~
在CoD提示的实验中,我们也要求模型逐步思考。本文创新性的提出了极简推理范式Chain-of-Draft(CoD),通过模拟人类提炼关键信息的草稿思维,将中间推理步骤压缩至极致,仅用 20% 的 token 量,在 GSM8K 等基准测试中实现与 CoT 相当甚至更高的准确率,同时将延迟降低达 76.2%!此外,CoD 紧凑推理背后的原理可以启发新的策略,通过使用紧凑的推理数据进行训练来改进推理模型,同时保持 LLM 的可解释性和效率,帮助弥补研究驱动的推理改进与现实世界系统的实际需求之间的差距。
2025-03-24 07:31:15
626
转载 UC Berkeley最新!将sim-to-real的强化学习应用于视觉人形机器人灵巧操作!
Tony 等,2024)。在机器人应用场景中,还面临环境建模不精确的难题,难以准确模拟现实环境的复杂性,以及奖励函数设计困难的问题,难以制定合理有效的奖励机制引导智能体学习,同时在高维动作和感知空间中探索效率较低,学习过程缓慢。具体来说,先从制造商提供的机器人模型文件出发,随机采样参数组合初始化多个模拟环境,接着在真实机器人硬件和模拟环境中并行执行关节位置目标的校准序列,通过比较跟踪误差,选择能最小化均方误差的参数集,从而优化机器人和环境的建模,减少手动调优的工作量,提高仿真与现实的契合度。
2025-03-24 07:31:15
95
转载 80K!自动驾驶大模型岗位如何上岸?
理想汽车智驾负责人贾鹏首次公开了理想汽车在封闭开发VLA技术后的最新进展。日前,有媒体报道称其为了攻克VLA技术启动了封闭开发,目标是在2025年下半年实现VLA技术的量产上车。当下VLA(视觉-语言-行动)模型已成为今年智能驾驶领域的重要技术竞争方向。欢迎大家扫码加入自动驾驶之心知识星球,我们诚邀更多学员的加入,一起创造一个全技术栈的自动驾驶开发者社区!今天星主就和大家一起盘点下『自动驾驶之心知识星球』内部VLM的相关汇总!星球成员的加入平均每天不到1元,欢迎扫码加入一起学习一起卷!
2025-03-24 07:31:15
73
转载 为什么说不懂4D闭环,就做不好自动驾驶项目落地?
老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。再进一步讲解OCC真值的生成流程,基于lidar的方案怎么做、基于视觉的方案怎么做、工程上如何稠密化点云和优化噪声、跨传感器遮挡的场景如何优化。我们又如何准备相关岗位的面试,什么内容是公司真正关注的?:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;
2025-03-24 07:31:15
89
转载 小白如何入门具身智能与Diffusion Policy?
在复杂任务的执行中,扩散策略的独特优势展露无遗。例如,当机器人需要在复杂的迷宫环境中规划路径,或机械臂需要将物体精准放置到指定位置等强调终点约束的任务中,扩散策略能够一次性生成完整的运动轨迹,既保证了路径的连续性,又确保了终点的精确性,充分体现了其在目标导向控制方面的卓越性能。扩散策略的发展历程令人瞩目。在扩散策略的技术体系中,从基础的状态扩散策略Diffuser开始,经过Decision Diffuser的发展,以及动作扩散策略(Diffusion Policy)的提出,扩散策略不断完善其理论框架。
2025-03-24 07:31:15
101
转载 对下一代自动驾驶架构的思考
2024年,理想汽车基于卡尼曼「快思考-慢思考」认知模型,率先提出端到端大模型与视觉语言模型(VLM)的双系统协同架构,为行业提供了首个可落地的类人驾驶技术框架。Figure公司的Helix模型:2025年2月,Figure发布支持多机器人协作的VLA模型Helix,采用“系统1(高频控制)+系统2(语义决策)”双架构,实现低功耗、高泛化的家庭服务机器人。3D-VLA的演进:2024年,麻省理工与伯克利团队提出3D-VLA,引入三维空间表征技术,增强复杂场景的几何感知能力,解决二维模型的局限性。
2025-03-24 07:31:15
98
转载 万字长文!面向感知的决策规划介绍
在更新父节点时同样有一个剪枝操作,使用限速信息FLAGS_planning_upper_speed_limit得到pre_lowest_s,进而将寻找范围限制在[r_low, r],其中r为当前行号,因为EM Planner主要是前进场景,不会考虑倒车情况,那么S值是递增或不变,不会下降,所以r最大也就当前行号。
2025-03-23 00:02:21
234
转载 英伟达Hydra-MDP++:基于专家引导的Hydra-Distillation推进端到端驾驶
本文提出了Hydra-MDP++,这是一种最先进的端到端运动规划器,旨在结合基于规则的方法和神经规划方法的优势。该框架使用没有复杂组件的轻量级ResNet-34网络,并且加入了扩展的评估指标(包括交通信号灯合规性(TL)、车道保持能力(LK)和扩展舒适性(EC)),以应对传统的NAVSIM-derived教师无法捕获的不安全行为。1)本文引入了Hydra-MDP++,这是一种新型的端到端自动驾驶框架,它结合了人类演示和基于规则的专家;自动驾驶感知(大模型、端到端自动驾驶。『端到端自动驾驶』技术交流群。
2025-03-23 00:02:21
132
转载 上交最新!ChatBEV:VLM如何理解BEV?
涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!提出基于控制条件的四层分类法(文本、图像、视频、3D、多条件),为4D生成任务提供结构化框架(如MAV3D、AYG、TC4D等方法),帮助研究者快速定位技术路径并识别研究空白。
2025-03-23 00:02:21
167
转载 李斌内部讲话详解组织变革:“要把蔚来的尊严挣回来”
在公司层面,把这类最基本的经营对象抽象出来,就是公司级的12个基本经营单元,这些各个维度的基本经营单元合并起来,就是公司的经营报表。2024年全年,李斌推动各核心业务梳理出15个公司级体系能力,并在此基础上推进落地基本经营单元机制,决心将局部散点的正面成功案例梳理成为整体经营机制,体系化落地到全公司各个层面,把事做对,做快,做挣钱。抓经营主体、经营负责人的工作表现,形成闭环机制,定期去看和当时计划的经营目标是不是一致,如果做不到,那蔚来不会存在,现在竞争太激烈了,是全面竞争,做好管理是基本生存条件。
2025-03-23 00:02:21
135
转载 下一代智能驾驶量产架构MindVLA,涉及哪些技术栈?
星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;这么多的领域问题,需要行业最专业的回答。
2025-03-22 00:02:50
183
转载 上海AI Lab最新!Dita:扩散模型实现通用视觉-语言-动作策略
尽管近年来在多样化的机器人数据集上预训练的Vision-Language-Action(VLA)模型在仅有少量域内数据的情况下展现出了一定的泛化能力,但它们往往都依赖紧凑的动作预测模块(用于输出离散或连续动作)的做法,限制了对异质动作空间的适应性。具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!
2025-03-22 00:02:50
159
转载 CVPR 2025 | UMGen:多模态驾驶场景生成统一框架!
具体来讲,UMGen将场景生成转换为Next-Scene Prediction任务,利用帧间并行自回归和帧内多模态自回归技术,在一个统一的模型中生成以自车为中心、多模态一致的驾驶场景序列,其生成的每个场景中包含自车、地图、交通参与者以及图像等多种元素,并还可以根据需求增加其他模态的元素。UMGen可以自由想象生成各种驾驶场景,更重要的是,它可以根据用户的控制和设定来生成特定的驾驶场景,如控制自车在场景中主动执行左右转等动作,控制他车和自车生成一个cut-in场景等。学习官网:www.zdjszx.com。
2025-03-22 00:02:50
157
原创 nuScenes SOTA!复旦BridgeAD:历史预测与规划无缝融合助力端到端登顶(CVPR‘25)
最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。,以区分每个未来时间步的查询目标。
2025-03-21 07:30:37
663
转载 迈向全场景感知!极端天气下的自动驾驶如何有效解决?
AllWeather Net有效地将图像转换为正常天气和白天场景,展示了卓越的图像增强结果,从而提高了语义分割的性能,训练域中的mIoU提高了5.3%。雪、雨、夜间和雾等不利条件对自动驾驶感知系统构成了挑战。光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流。多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、在线地图、SLAM、
2025-03-21 07:30:37
114
转载 没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了
其中 α 是一个可学习的标量参数,允许根据输入的范围以不同的方式缩放输入,并会考虑不同的 x 尺度(图 2)。输入 x 范围较小的 token 往往具有较小的方差,并且归一化层将使用较小的标准偏差来除它们的激活,从而让直线有较大的斜率。需要注意的是,在 DiT 中,LN 层的仿射参数用于类调节,DyT 实验中也保留了这一参数,只是用 tanh (αx) 函数替换了归一化迁移。他们对每个 LLaMA 模型都进行了 30B tokens 的预训练,并比较了它们的训练损失,从而调整了它们的 α_0。
2025-03-21 07:30:37
162
转载 数据闭环和自动标注涉及哪些元素?都有哪些技术栈?
老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。然后重点介绍4D标出的交付物和涉及的诸多算法,从更高的层级认识4D自动标注。在这一章都会有答案!:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;智驾能力的背后是千万级训练数据赋予的强大动力,而这动力的源头就是数据闭环源源不断的自动化4D标注数据产出。
2025-03-21 07:30:37
113
转载 纯LiDAR应对各种复杂环境!KISS-SLAM开源:极简设计亦能SOTA!
实验表明,我们的方法在性能上可媲美甚至超越目前最先进的 LiDAR SLAM 系统,同时仅需极少的参数调整,并在不同数据集和环境条件下保持良好表现。我们的开源代码不仅稳健且简单,而且易于扩展,推动 LiDAR SLAM 技术的发展,并挑战更复杂的系统。该系统的相同参数配置可以适用于各种具有挑战性的场景,例如自动驾驶车辆在高速公路上的行驶、手持设备的应用以及电动平衡车的导航。本研究的主要贡献在于提出了一种简单但高度有效的 LiDAR SLAM 方法,能够在机器人导航环境时,实时计算其位姿并构建相应的地图。
2025-03-21 07:30:37
129
原创 nuScenes SOTA!复旦BridgeAD:历史预测与规划无缝融合助力端到端登顶(CVPR‘25)
最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。,以区分每个未来时间步的查询目标。
2025-03-21 07:30:37
885
原创 nuScenes SOTA!复旦BridgeAD:历史预测与规划无缝融合助力端到端登顶(CVPR‘25)
最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。,以区分每个未来时间步的查询目标。
2025-03-21 07:30:37
826
原创 nuScenes SOTA!复旦BridgeAD:历史预测与规划无缝融合助力端到端登顶(CVPR‘25)
最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。,以区分每个未来时间步的查询目标。
2025-03-21 07:30:37
984
原创 nuScenes SOTA!复旦BridgeAD:历史预测与规划无缝融合助力端到端登顶(CVPR‘25)
最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。,以区分每个未来时间步的查询目标。
2025-03-21 07:30:37
824
原创 nuScenes SOTA!复旦BridgeAD:历史预测与规划无缝融合助力端到端登顶(CVPR‘25)
最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。,以区分每个未来时间步的查询目标。
2025-03-21 07:30:37
886
转载 论文笔记 | 道路自动驾驶的连续决策
作者首先做了一个假设,这里的决策主要决策的是未来的速度profile的分配,因为不同的速度分配就会产生overtake或者yield的动作结果,而对于横向的移动,作者将更换参考线作为横向决策的标准,也就是说像overtake这种临时离开参考线,过一会再回去的动作只要规划分配纵向速度即可,不存在横向决策,而那些换道操作这是存在横向决策的,所以这里对于横向决策作者则是采用了离散化的表达,用。第三步:根据第二步的目标物的不同状态迁移采用交互模型预测本车与目标车交互,得到目标车收到本车影响后的预测状态。
2025-03-20 07:30:40
120
1
转载 这个自动驾驶社区是如何做到紧跟前沿的?
创新性整合视觉(Camera/LiDAR)、运动学(IMU)、地理空间(HD Map)等7类输入模态,通过显式空间拓扑建模 (如相对距离/朝向/占用空间)和隐式物理约束推理 (如材质属性/运动学模型),解决传统VLMs在空间-时序信息耦合处理上的缺陷。从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、,动态调整规划器行为。
2025-03-20 07:30:40
144
转载 重磅发布!OmniHD-Scenes:重新定义自动驾驶感知与决策的多模态数据基座~
除了所提出的数据集,我们还建立了全面的评估指标、基线模型和3D检测和语义占用预测的基准。下一代自动驾驶数据集必须是多模态的,整合来自高级传感器的数据,这些传感器具有广泛的数据覆盖范围、详细的标注和多样化的场景表示。光流估计、深度估计、轨迹预测、高精地图、NeRF、Gaussian Splatting、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流。多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、在线地图、SLAM、
2025-03-20 07:30:40
148
转载 理想汽车 | 驾驶世界模型在视频潜在空间中统一自车与其它车辆轨迹
为了解决上述问题,本文提出了一种称为EOT-WM的驾驶世界模型,它统一了视频中自车与其它车辆的轨迹。具体而言,本文首先将BEV空间中的自车与其它车辆轨迹投影到图像坐标,以将每条轨迹与视频中的相应车辆相匹配。此外,本文还进一步设计了轨迹注入扩散Transformer,用于在自车与其它车辆轨迹的引导下对带有噪声的视频latents进行去噪,以生成视频。1)本文首先提出了一种基于自车与其它车辆轨迹的驾驶世界模型,更真实地模拟自车与驾驶场景之间的交互,并且能够通过可变的自车与其它车辆轨迹来生成多样化场景;
2025-03-20 07:30:40
124
转载 关于思维链,尤其是自动驾驶思维链该如何落地?
COT从最初在语言模型中提出基于文本的链式思维推理(few-shot,zero-shot),逐步扩展至多模态领域,并进一步结合垂直场景需求(如自动驾驶中的结构化决策、运动预测),通过引入分阶段推理、知识蒸馏、轻量化部署及结构化标注数据,推动CoT从通用推理工具向可解释、高效率、场景适配的认知智能范式演进,最终实现复杂任务中“逻辑透明性”与“性能优越性”的统一,是大模型迈向类人推理的关键技术路径。突破传统思维链(CoT)仅生成单一推理路径的限制,提出同时生成多个不同推理路径。
2025-03-19 07:30:25
161
转载 如何评价 CVPR 2025 的审稿结果?
分数232(434),第一个2分,问我为啥不和sota比,然后又说我这个和sota比没有分数优势,和最新的idea比没有足够的创新,然后又说为什么我不去跑一跑别人的论文基线,而是直接采用他们论文中的数据,然后又问我在第二章相关工作中,为什么谈到了一些方法(2016 2017年的),但是最后没有拿出来比,但是我在最后的模型比较里面比的都是最新的论文2018-2024年的。不过这就是我在口嗨,我根本没去回复他。哎,导师的难处,学生的难处,大厂研究者的难处,我也都理解,但我真的不知道这风气啥时候是个头。
2025-03-19 07:30:25
152
转载 理想贾鹏英伟达GTC演讲:下一代量产方案MindVLA!
同时借助VLM的通识能力,我们在这一产品中实现了多个行业首创的功能,比如实现了不依赖于地图或者先验信息的全国ETC自由通行,全国潮汐车道和可变车道的自由通行,在待转区待行区的自主进出,以及在坑洼路面积雪路面积水路面的自动减速,这些突破性的功能目前在其他车上都尚未实现,极大的提升了我们用户的用户体验,赢得了广泛的好评,也推动了我们的销量在持续增长。在这个新的基座模型训练过程中,我们花了很多时间去找到最佳的数据配比,融入了大量的3D数据和自动驾驶相关的图文数据,并减少了文史类数据的比例。
2025-03-19 07:30:25
174
转载 多目标跟踪SOTA!OVTR:华科最新开集端到端跟踪框架~
提出首个基于Transformer的端到端开放词汇多目标跟踪模型,联合建模运动、外观和类别信息,消除传统方法中对复杂后处理(如显式关联匹配、锚框生成)的依赖,显著提升推理速度(3.4 FPS vs. 3.1 FPS)并简化流程。联合应用两类策略后,关联精度(AssocA)提升5.3%,TETA提升3.4%。:通过检测模型(OVD)与深度估计提供精确感知输入,结合大语言模型(LLM)的关系推理能力,解决单一模块的泛化局限(如检测模型混淆、纯LLM提示的几何幻觉),实现感知-推理-执行的端到端协同优化。
2025-03-18 20:45:07
165
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人