- 博客(3886)
- 收藏
- 关注
转载 自动驾驶之心合伙人招募来啦!
如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们;自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发;更多欢迎添加微信咨询,备注“ 机构/公司 + 自动驾驶合作咨询 ”。QS200以内高校,硕士及以上学历,手握顶会的大佬优先。自动驾驶资源共享(求职、读博、出国留学推荐等);创业项目合作与推荐;
2025-05-14 21:00:00
1
转载 自动驾驶黄埔军校,一个死磕技术的地方~
星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;后处理,写逻辑建议转行业可以,不要换方向,gap还是蛮大。
2025-05-14 18:22:26
4
转载 ICCV 2025万篇投稿破纪录,作者被逼全员审稿!网友痛批不如GPT
然而,我并没有找到这些术语的明确定义,这导致「提高理解力」这一目标的定义实际上取决于用于衡量它的方法,即第4.2节中使用的基准测试。因此,我只能认为该论文在特定的一组基准测试所定义的任务上表现良好,而这种良好表现也是通过同样的基准测试来衡量的。我希望看到这些术语的明确定义、用于衡量它们的指标,以及优化这些指标的原理,特别是该论文提出的方法是如何实现这些优化的。她表示,我理解审稿人紧缺的现状,但强制规定「作者必须参与审稿」,且任何一人超期未完成,就会导致其所有论文被直接拒稿,这种规定实在荒谬了。
2025-05-14 07:32:14
3
原创 迈向以人为中心的自动驾驶:LLM与RL结合的快慢架构(同济大学)
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『大语言模型』技术交流群论文作者 | Chengkai Xu等编辑 | 自动驾驶之心自动驾驶通过数据驱动技术取得了显著进展,在标准化任务中实现了稳健的性能。然而,现有方法经常忽视用户特定的偏好,与用户互动和适应的空间有限。为解决这些挑战,我们提出了一种“快慢”决策框架,该框架结合了用于高层指令解析的大型语言模型(LLM)和用于低层实时决策的强化学习(RL)代理。在这一双系统中,LLM作为“慢”模块运行
2025-05-14 07:32:14
234
转载 最新综述!具身领域中基于物理模拟器的机器人导航与操作
点击下方卡片,关注“具身智能之心”公众号作者丨KAIXIN BAI等编辑丨具身智能之心本文只做学术分享,如有侵权,联系删文>>点击进入→具身智能之心技术交流群更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。导航和操作是具身人工智能(Embodied AI, EAI)中的核心能力,但在现实世界中训练具备这些能力的智能体面临着高昂的成本和时间复杂性。因此,仿真到现实的迁移(sim-to-real transfer)成为了一种关键方法,然而仿真与现实之间的差距依
2025-05-14 07:32:14
7
转载 多模态与生成正迈向终极大一统!阿里最新综述~
来源 | AI生成未来点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『多模态大模型』技术交流群本文只做学术分享,如有侵权,联系删文文章链接:https://arxiv.org/pdf/2505.02567 开源链接:https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models 亮点直击阐述多模态理解与文生图模型的基础概念与最新进展;继而梳理现有统一模型,将其归纳为三大架构范式:基于扩散的
2025-05-14 07:32:14
1
转载 自动驾驶转具身智能的切入点有哪些?
我们也创办了一个具身智能全栈学习社区:具身智能之心,平时分享了很多具身智能相关的算法、数据采集、软硬件方案等。主要方向涉及VLA、VLN、Diffusion Policy、强化学习、机械臂抓取、位姿估计、机器人仿真、多模态大模型、芯片部署、sim2real、机器人硬件结构等,日常也分享了很多行业与招聘相关内容。从算法维度上看,具身智能领域基本延续了机器人和自驾的一些算法,比如SLAM、规划控制、模型训练与微调方式、数据生成方式、大模型。当然也有很多具体的任务不太一样,比如数据采集方式、重执行硬件与结构。
2025-05-13 23:13:06
46
转载 自动驾驶二阶段端到端小班课!直接搞定联合预测~
传统的预测方式仅基于交通场景的历史信息来预测未来的可能性,这种预测方式是与下游的规划解耦的,然而在实际中预测和规划是耦合的,预测会受到规划的影响,规划也会受到预测的影响。现任业内某大厂高级预测决策算法工程师,负责预测决策框架的设计和优化,精通数字驱动的预测决策领域的各种处理方法和技巧,欢迎大家一起交流学习。更重要的是,本课程重点的两个工程项目,可以直接写入简历!学完本章,大家将对轨迹预测领域有更深层次的认知,并掌握或许是目前全业界唯一一个能用的联合预测方案的核心技法,真正做到遥遥领先!
2025-05-13 11:30:00
40
转载 从3.0到4.0,华为ADS正式发布高速L3!
这使得其内部结构更加紧凑、稳定,减少了因机械运动部件磨损、故障而导致的系统失效风险,提高了可靠性和耐用性,降低了维护成本。架构,减少了对高精地图的依赖,硬件上有所调整,降本的同时提升了整体功能的性能和体验。,便于集成安装在车辆、机器人等各种平台上,不会对载体的空间和性能产生过大影响,为设备的小型化和轻量化设计提供了可能。数字底盘引擎升级,首创全域融合架构,实现车身、电机、悬架、转向、制动等部件的中央集中控制,控制处理能力提升。体积小、重量轻由于无需庞大的机械结构,固态激光雷达可以设计得更加小巧轻便。
2025-05-13 07:30:50
48
转载 ICLR‘25Oral | One Step Diffusion Via ShortCut Models论文解读
其实这部分也很好理解,因为这个端到端模型实际上就是需要先训练一个flow-matching较好的模型,然后第二项只是在flow-matching的基础上进行优化,如果flow-matching训练得不好,后一项自然训练不好,因为s_target是需要从flow-matching模型中采样的,后一项只能在d=0训练的基础模型上去拟合这个模型,本质上shortcut还是一个教师-学生的思路,但是不同于之前教师和学生都是模型,shortcut将教师-学生拆分为两个损失函数去训练同一个模型,从而实现了端到端。
2025-05-13 07:30:50
43
转载 RL训练总崩溃?R1-Reward稳定解锁奖励模型长CoT推理能力
基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。
2025-05-13 07:30:50
39
转载 大模型时代,如何通过大模型解决自动驾驶问题?
在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。作为多模态大模型下游应用的基石,可以说没有通用多模态大模型的蓬勃发展,就不会有当下大模型应用百花齐放的局面。这一章老师将会带领同学们真正进入多模态大模型的世界。这里也推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。
2025-05-13 07:30:50
36
转载 ICLR‘25Oral | One Step Diffusion Via ShortCut Models论文解读
其实这部分也很好理解,因为这个端到端模型实际上就是需要先训练一个flow-matching较好的模型,然后第二项只是在flow-matching的基础上进行优化,如果flow-matching训练得不好,后一项自然训练不好,因为s_target是需要从flow-matching模型中采样的,后一项只能在d=0训练的基础模型上去拟合这个模型,本质上shortcut还是一个教师-学生的思路,但是不同于之前教师和学生都是模型,shortcut将教师-学生拆分为两个损失函数去训练同一个模型,从而实现了端到端。
2025-05-13 07:30:50
3
转载 聊聊端到端自动驾驶下的规划控制融合趋势~
传统的自动驾驶算法框架是定位=>感知=>预测=>决策规划=>控制的链路,Planning会接收预测模块对社会车未来行驶轨迹的预测结果进行决策规划,但预测是在规划的上游,没有办法给出考虑到当前帧自车决策结果的预测,因此理论更优的做法是实现自车和他车的联合预测规划,也就是通过一个模型同时计算出他车和自车的轨迹。每类算法的优缺点是什么?网上已有大量的开源项目和理论基础资料,宁远老师会选择合适的资料辅助讲解,为学员提供决策规划框架优化的细节,目标只有一个:让学员具备解决复杂问题的思路,掌握实际量产工作的能力!
2025-05-12 17:30:00
74
转载 康奈尔大学!自动驾驶和具身智能最新VLA综述~
通过这种方式,VLA模型能够从配对的视觉、语言和轨迹数据中学习,从而显著提高机器人在未见过的对象上的泛化能力、对新语言指令的理解能力,以及在非结构化环境中的多步推理能力。在实际应用中(如自动驾驶或医疗机器人),错误的动作可能导致严重后果,因此必须开发新的建模和评估标准来验证VLA系统的端到端安全性。在Vision-Language-Action(VLA)模型发展之前,机器人技术和人工智能的进步主要发生在独立的领域:能够看见和识别图像的视觉系统,能够理解和生成文本的语言系统,以及能够控制运动的动作系统。
2025-05-12 11:30:00
71
原创 Agent智驾新范式?DriveAgent:基于LLM的自动驾驶多模态融合决策框架~
点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『多模态大模型』技术交流群论文作者 | Xinmeng Hou等编辑 | 自动驾驶之心论文题目: DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving论文链接:https://www.arxiv.org/pdf/2505.02123传统的自动驾驶
2025-05-12 07:30:31
579
转载 聊聊那些倒在自动驾驶黎明前夜的企业
作者 | 陈云培 来源 | 陈云培点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『自动驾驶』技术交流群本文只做学术分享,如有侵权,联系删文随着自动驾驶越来越具像化,政府监管机构也出台多项政策,以完善道路测试许可、技术评估和安全事故处理流程,为产业发展提供了明确的制度保障。但在自动驾驶即将规范化发展的当下,也有很多企业却黯然倒下,不仅让人唏嘘不已。其中威马汽车、纵目科技和极越汽车作为智驾领域曾经的明星品牌,却因各种原由,倒在了自动驾驶黎明前的黑暗。
2025-05-12 07:30:31
77
转载 一张照片一句简单提示词,就被ChatGPT人肉开盒?
近日,来自威斯康星大学麦迪逊分校教授肖超玮(Chaowei Xiao)主导并联合佐治亚大学教授向臻(Zhen Xiang), 南加州大学教授赵越(Yue Zhao)团队完成的一项新研究,揭示了自主多模态大语言推理模型严重的隐私泄露风险 —— 图片地理位置定位。提取门牌号数字、木质材质、拱窗形状。即使遮盖 NASA 标识,AI 仍通过铁轨布局、湖景视角和周边建筑的红砖外墙,将位置缩小到 3 个候选街道(图 13)。这些看似简单的提示词,配合一张生活照,即可触发 AI 的多模态推理链条,精准定位用户隐私地址。
2025-05-12 07:30:31
73
转载 自动驾驶从业必看:避免被行业无情淘汰!
星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;在过去的十年间,自动驾驶技术以惊人的速度重塑了未来出行的图景。
2025-05-11 21:33:31
130
1
转载 自动驾驶转具身智能的方向有哪些?
我们也创办了一个具身智能全栈学习社区:具身智能之心,平时分享了很多具身智能相关的算法、数据采集、软硬件方案等。主要方向涉及VLA、VLN、Diffusion Policy、强化学习、机械臂抓取、位姿估计、机器人仿真、多模态大模型、芯片部署、sim2real、机器人硬件结构等,日常也分享了很多行业与招聘相关内容。会不会有比较大的gap。从算法维度上看,具身智能领域基本延续了机器人和自驾的一些算法,比如训练与微调方式、大模型。当然也有很多具体的任务不太一样,比如数据采集方式、重执行硬件与结构。
2025-05-11 14:37:44
107
转载 百度最新X-Driver:基于视觉语言模型的可解释自动驾驶
本文引入了X-Driver,这是一种为闭环自动驾驶设计的统一多模态大型语言模型(MLLMs)框架,它利用思维链(CoT)和自回归建模来增强感知和决策能力。本文实验结果证明了X-Driver具有卓越的闭环性能,它超越了当前最先进(SOTA)的技术,同时提高了驾驶决策的可解释性。这些结果突出了结构化推理在端到端自动驾驶中的重要性,并且将X-Driver确立为闭环自动驾驶中未来研究的一种强大基线。总体而言,本文提出了一种统一的端到端自动驾驶框架,它利用了MLLM来实现决策,同时集成CoT推理以提高可解释性。
2025-05-11 00:01:13
273
转载 Qwen3 系列大模型亮点解析
处理复杂问题,比如数学推理、代码生成、深度分析的时候,模型会模拟人类的「慢思考」或「系统 2 思维」,进行详细的、逐步的推理(CoT),然后给出最终答案。这个 SDK 封装了 MCP 的用法,而不是 Qwen3 系列模型针对 MCP 协议数据进行了预训练或者后训练。:面对相对简单、直接的问题,模型则采用「快思考」或「系统 1 思维」,迅速给出答案,优先保证响应速度和效率。」支持了 MCP,我对这个「原生」具体指代的内容抱有一点点疑问。不过,无论如何,对于用户(开发者)都是一件好事。
2025-05-11 00:01:13
233
转载 谈谈智能驾驶量产的核心:端到端趋势下的自动标注~
老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。再进一步讲解OCC真值的生成流程,基于lidar的方案怎么做、基于视觉的方案怎么做、工程上如何稠密化点云和优化噪声、跨传感器遮挡的场景如何优化。我们为什么需要这些算法,他们的作用究竟是什么。Camera/Lidar 联合标注、 3D OCC分割、环视Camera BEV、端到端标注... 如何完成4D空间的自动化标注,目前各家都在搭建自己的自动化真值系统。
2025-05-11 00:01:13
120
转载 ICML‘25 | Bring Reason to Vision:通过模型合并理解感知和推理~
除此之外,还和数十家自动驾驶公司建立了1v1内推渠道,简历直达!星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;
2025-05-10 10:45:23
146
转载 ICML‘25 | Bring Reason to Vision:通过模型合并理解感知和推理~
除此之外,还和数十家自动驾驶公司建立了1v1内推渠道,简历直达!星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;
2025-05-10 10:45:23
79
转载 ICML‘25 | Bring Reason to Vision:通过模型合并理解感知和推理~
除此之外,还和数十家自动驾驶公司建立了1v1内推渠道,简历直达!星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;
2025-05-10 10:45:23
80
转载 ICML‘25 | Bring Reason to Vision:通过模型合并理解感知和推理~
除此之外,还和数十家自动驾驶公司建立了1v1内推渠道,简历直达!星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;
2025-05-10 10:45:23
39
转载 盘一下ICLR‘25现场那些有趣的poster及paper(具身智能方向)
在扩散模型训练中引入仿真器导数,强制生成的动作符合物理规律。此外,CLoSD在实时性上显著优化,DiP仅需10步扩散即可生成高保真动作,而RL控制器能即时修正扩散输出的微小误差,如接触动力学中的偏差。(MoSAT)实现关节间的消息传递,并引入拓扑位置编码(TopoPE)来高效表示动态演化的形态结构,从而支持轻量级模型(仅1.4M参数)下的复杂任务处理。首先,它通过文本提示(如“高踢腿”或“坐下”)直接控制动作风格,结合目标位置实现精确的任务描述,突破了传统控制器对预定义动作的依赖。上海AI Lab最新!
2025-05-10 00:01:22
132
转载 研一小白入门,不知智驾从何学起。。。
星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;你想多LV融合,得参考LV融合相关的工作呀,有比较成熟的方法了。
2025-05-10 00:01:22
112
转载 VGGT:开创3D视觉新范式!CVPR‘25最佳论文候选~
我们提出了VGGT,这是一个前馈神经网络,它可以从一个、几个或数百个视图中直接推断场景的所有关键3D属性,包括相机参数、点图、深度图和3D点轨迹。综上所述,我们的贡献包括:(1)提出VGGT——一种大型前馈Transformer网络,给定单个、少量甚至数百张场景图像,可在数秒内预测包括相机内参外参、点云图、深度图和3D点轨迹在内的所有关键3D属性;它最多可以接受数百张图像,并在不到一秒的时间内同时预测所有图像的相机、点图、深度图和点轨迹,这通常优于未经进一步处理的基于优化的替代方案。附加的点图估计可视化。
2025-05-10 00:01:22
128
转载 CVPR 2025 | 自动驾驶论文总结
题目:GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving。题目:GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving。
2025-05-10 00:01:22
151
转载 VGGT:开创3D视觉新范式!CVPR‘25最佳论文候选~
我们提出了VGGT,这是一个前馈神经网络,它可以从一个、几个或数百个视图中直接推断场景的所有关键3D属性,包括相机参数、点图、深度图和3D点轨迹。综上所述,我们的贡献包括:(1)提出VGGT——一种大型前馈Transformer网络,给定单个、少量甚至数百张场景图像,可在数秒内预测包括相机内参外参、点云图、深度图和3D点轨迹在内的所有关键3D属性;它最多可以接受数百张图像,并在不到一秒的时间内同时预测所有图像的相机、点图、深度图和点轨迹,这通常优于未经进一步处理的基于优化的替代方案。附加的点图估计可视化。
2025-05-10 00:01:22
118
转载 盘一下ICLR‘25现场那些有趣的poster及paper(具身智能方向)
在扩散模型训练中引入仿真器导数,强制生成的动作符合物理规律。此外,CLoSD在实时性上显著优化,DiP仅需10步扩散即可生成高保真动作,而RL控制器能即时修正扩散输出的微小误差,如接触动力学中的偏差。(MoSAT)实现关节间的消息传递,并引入拓扑位置编码(TopoPE)来高效表示动态演化的形态结构,从而支持轻量级模型(仅1.4M参数)下的复杂任务处理。首先,它通过文本提示(如“高踢腿”或“坐下”)直接控制动作风格,结合目标位置实现精确的任务描述,突破了传统控制器对预定义动作的依赖。上海AI Lab最新!
2025-05-10 00:01:22
97
转载 VGGT:开创3D视觉新范式!CVPR‘25最佳论文候选~
我们提出了VGGT,这是一个前馈神经网络,它可以从一个、几个或数百个视图中直接推断场景的所有关键3D属性,包括相机参数、点图、深度图和3D点轨迹。综上所述,我们的贡献包括:(1)提出VGGT——一种大型前馈Transformer网络,给定单个、少量甚至数百张场景图像,可在数秒内预测包括相机内参外参、点云图、深度图和3D点轨迹在内的所有关键3D属性;它最多可以接受数百张图像,并在不到一秒的时间内同时预测所有图像的相机、点图、深度图和点轨迹,这通常优于未经进一步处理的基于优化的替代方案。附加的点图估计可视化。
2025-05-10 00:01:22
46
转载 盘一下ICLR‘25现场那些有趣的poster及paper(具身智能方向)
在扩散模型训练中引入仿真器导数,强制生成的动作符合物理规律。此外,CLoSD在实时性上显著优化,DiP仅需10步扩散即可生成高保真动作,而RL控制器能即时修正扩散输出的微小误差,如接触动力学中的偏差。(MoSAT)实现关节间的消息传递,并引入拓扑位置编码(TopoPE)来高效表示动态演化的形态结构,从而支持轻量级模型(仅1.4M参数)下的复杂任务处理。首先,它通过文本提示(如“高踢腿”或“坐下”)直接控制动作风格,结合目标位置实现精确的任务描述,突破了传统控制器对预定义动作的依赖。上海AI Lab最新!
2025-05-10 00:01:22
41
转载 盘一下ICLR‘25现场那些有趣的poster及paper(具身智能方向)
在扩散模型训练中引入仿真器导数,强制生成的动作符合物理规律。此外,CLoSD在实时性上显著优化,DiP仅需10步扩散即可生成高保真动作,而RL控制器能即时修正扩散输出的微小误差,如接触动力学中的偏差。(MoSAT)实现关节间的消息传递,并引入拓扑位置编码(TopoPE)来高效表示动态演化的形态结构,从而支持轻量级模型(仅1.4M参数)下的复杂任务处理。首先,它通过文本提示(如“高踢腿”或“坐下”)直接控制动作风格,结合目标位置实现精确的任务描述,突破了传统控制器对预定义动作的依赖。上海AI Lab最新!
2025-05-10 00:01:22
58
转载 VGGT:开创3D视觉新范式!CVPR‘25最佳论文候选~
我们提出了VGGT,这是一个前馈神经网络,它可以从一个、几个或数百个视图中直接推断场景的所有关键3D属性,包括相机参数、点图、深度图和3D点轨迹。综上所述,我们的贡献包括:(1)提出VGGT——一种大型前馈Transformer网络,给定单个、少量甚至数百张场景图像,可在数秒内预测包括相机内参外参、点云图、深度图和3D点轨迹在内的所有关键3D属性;它最多可以接受数百张图像,并在不到一秒的时间内同时预测所有图像的相机、点图、深度图和点轨迹,这通常优于未经进一步处理的基于优化的替代方案。附加的点图估计可视化。
2025-05-10 00:01:22
65
转载 盘一下ICLR‘25现场那些有趣的poster及paper(具身智能方向)
在扩散模型训练中引入仿真器导数,强制生成的动作符合物理规律。此外,CLoSD在实时性上显著优化,DiP仅需10步扩散即可生成高保真动作,而RL控制器能即时修正扩散输出的微小误差,如接触动力学中的偏差。(MoSAT)实现关节间的消息传递,并引入拓扑位置编码(TopoPE)来高效表示动态演化的形态结构,从而支持轻量级模型(仅1.4M参数)下的复杂任务处理。首先,它通过文本提示(如“高踢腿”或“坐下”)直接控制动作风格,结合目标位置实现精确的任务描述,突破了传统控制器对预定义动作的依赖。上海AI Lab最新!
2025-05-10 00:01:22
33
转载 VGGT:开创3D视觉新范式!CVPR‘25最佳论文候选~
我们提出了VGGT,这是一个前馈神经网络,它可以从一个、几个或数百个视图中直接推断场景的所有关键3D属性,包括相机参数、点图、深度图和3D点轨迹。综上所述,我们的贡献包括:(1)提出VGGT——一种大型前馈Transformer网络,给定单个、少量甚至数百张场景图像,可在数秒内预测包括相机内参外参、点云图、深度图和3D点轨迹在内的所有关键3D属性;它最多可以接受数百张图像,并在不到一秒的时间内同时预测所有图像的相机、点图、深度图和点轨迹,这通常优于未经进一步处理的基于优化的替代方案。附加的点图估计可视化。
2025-05-10 00:01:22
37
转载 即插即用!长安&复旦LMPOcc:长期记忆先验实现Occ新SOTA~
结合上述分析,本文提出了长期记忆先验占用算法,一种通过利用不同时间戳下同一空间位置的历史感知信息,将跨时间长期记忆先验融入3D占用预测的算法框架。在基于视觉的自动驾驶感知算法当中,3D语义占用预测任务可以出色的对静态场景和动态目标同时进行建模,实现细粒度的场景理解,目前受到了来自学术界和工业界的广泛关注。本文提出的LMPOcc算法模型在全局占用地图的结果如图7所示,在增强局部感知能力的同时,LMPOcc算法模型能够构建大规模的场景占用表示。本文提出的LMPOcc算法模型的整体网络结构如图2所示。
2025-05-09 08:02:06
95
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人