- 博客(665)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 具身智能、端到端、自动驾驶、大模型......技术交流群汇总
深蓝学院搭建了16个领域的交流群(具身智能、端到端、自动驾驶、机器人、大模型......等等),小伙伴们可以在群内交流、分享问题、获取行业资讯。这样在各大企业工作的,可以相互内推,互通信息;在学校读研读博的,可以交流想法,携手合作。截至目前,我们的社群已经细分到了【16】个子方向的领域,并且还在不断地壮大规模!不限学校、不限专业,只要你是人工智能相关行业的人就能加入(社群内会有。的面试题以及论文资源,还有相关领域的小伙伴一同学习、交流!所以,如果你想要跟更多优秀的小伙伴扎堆学习成长,后台私信。
2025-11-17 10:28:42
253
原创 2024年自动驾驶规划控制面试及答案
A*吸取了Dijkstra 算法中的cost_so_far,为每个边长设置权值,不停的计算每个顶点到起始顶点的距离(G),以获得最短路线, 同时也汲取贪婪最佳优先搜索算法中不断向目标前进优势,并持续计算每个顶点到目标顶点的距离(Heuristic distance),以引导搜索队列不断想目标逼近,从而搜索更少的顶点,保持寻路的高效。DWA,TEB算法。通常情况下,在机器人高速运动的时候,想要得到非常连续、平滑、噪音低的运动控制,第3个约束条件是必不可少的,有的甚至还要求加速度的导数jerk都是连续的。
2024-07-22 18:43:12
1827
原创 Github 2万star的超级明星项目,只为解决这件事……(ICLR 2026)
右图则揭示了惊人的成果:LeRobot社区收集的轨迹数量在短短数月内便超越了谷歌的Open-X和RT1等大型数据集的总和,展现了去中心化社区的强大力量。数据显示,基于模仿学习的ACT策略因其高效易用,在社区中的模型上传和下载量上均占据主导地位,而更新的VLA模型(如SmolVLA)也呈现出快速增长的趋势,表明LeRobot能够有效加速新算法的普及与迭代。LeRobot的出现,提供了一个垂直整合式的解决方案,通过统一的接口和标准,将原本孤立的硬件、数据和算法模块串联起来,形成一个高效协作的整体。
2026-03-19 17:07:36
77
原创 实测:VLA用扩散模型比自回归快100倍!
扩展规模VLA模型在不同硬件平台上的推理性能对比。扩散与自回归VLA性能对比:在动作块大小(左图)和自由度(右图)增加时,经典自回归模型(蓝色)的延迟呈指数级增长,而基于扩散的模型(绿色/橙色)则保持近乎恒定的低延迟。基于VLA-Perf的分析模型,研究团队对π₀这一代表性的VLA模型在不同硬件上的性能进行了预测,并给出了一系列关于模型缩放、长下文推理等关键问题的洞见。将所有模型组件的延迟和数据在不同硬件(如CPU、GPU)之间传输的延迟相加,就得到了整个VLA的端到端推理延迟预测。
2026-03-18 17:22:48
281
原创 VLN范式大洗牌|10篇力作,拆解2026年VLN四大核心突破方向
DACo(右侧)通过明确的"全局指挥官+局部执行官"角色划分,在简化系统设计的同时,实现了更稳健的长时序导航推理,在R2R、REVERIE、R4R三个数据集上取得了4.9%到6.5%的绝对成功率提升。这使得模型能够进行更长远的规划。可以预见的是,未来的VLN智能体,将是一个既能“仰望星空”(进行长远规划和想象),又能“脚踏实地”(在复杂环境中精确执行)的通用物理世界助手。在R2R、REVERIE和R4R三个数据集上的零样本实验中,DACo相比之前的最佳基线取得了较大的绝对成功率提升,展现了强大的泛化能力。
2026-03-17 18:45:34
336
原创 李飞飞团队6篇成果入选ICLR 2026,但我们更该关心那些“还没做到”的部分。。。
研究仅基于单一基准模型开展实验,未充分探索不同架构 VLMs 的空间推理表现,且未涉及复杂真实场景中动态物体的空间建模,对模型在更长视野下的推理稳定性也未深入验证。:目前的研究只是初步探索了部分具身相关诊断场景,消融实验的模型和数据范围有限,没尝试通过微调优化模型的具身世界建模能力,也没将视频生成模型纳入评估范畴。空间认知是具身智能与环境交互的核心能力,本方向聚焦于突破现有模型的空间理解瓶颈,通过创新推理范式与模型架构,提升长时域、复杂场景下的空间推理性能。在这个意义上,这六篇论文既是进展,也是镜子。
2026-03-16 18:28:02
316
原创 港科大沈劭劼团队|VG3S:不微调、不遗忘,即插即用实现高精度3D占用预测
这种设计的妙处在于:它不是简单平均,而是让模型自己学会"哪一层的几何信息对当前任务更有价值",从而在保留关键几何细节的同时,有效抑制冗余激活。左侧冻结的VFM编码器是"知识库",中间的HGFA(含GATF、TATR、LSFP三个模块)是"翻译官",右侧的高斯解码器和体素溅射是"执行者"。三者协同,让冰封在基础模型中的几何先验真正流动起来。VG3S的核心洞察是:不动VFM的权重,只训练一个即插即用的层次几何特征适配器(HGFA),将通用的VFM特征逐步转化为适合高斯解码器使用的几何增强表示。
2026-03-11 17:43:10
452
原创 深扒二月VLA进展,我们筛选了8篇“敢直面问题”的硬核研究 | 独家盘点
在真实人居与工作环境采集机器人行为数据,保持统一机器人载体,搭配精细的子任务级语言标注,含500小时数据、150项任务、50个场景,填补了大规模高质量开放世界机器人数据的空白。这一方向的研究通过创新模型架构,如双系统、双流机制、分层设计等,实现了“感知-推理-执行”全链路的高效协同,显著提升了VLA模型在复杂场景下的性能与稳健性。这一方向的研究聚焦于优化视觉、语言与动作之间的对齐关系,通过验证机制、双分支推理等方法,提升VLA模型对语言指令的遵循能力和任务执行的可靠性。
2026-03-10 18:32:03
396
原创 英伟达WAM刷屏背后,中国团队早已走通这条路……
值得注意的是,这是一个与训练时完全不同的机器人平台,且执行的是两个复杂的折叠任务。在真实机器人实验中,对于那些在训练数据中从未见过的任务场景(如写新字、用新盘子摆盘),其他基线模型的成功率基本都降到了0,而Act2Goal依然能保持较高的成功率(白板写字OOD达0.90,摆盘0.48,插入操作0.30)。▲在线自主改进的测试场景。特别是在MSTH的消融实验中,对于写长单词(7个字母以上)的任务,没有MSTH的模型成功率直接从90%暴跌至10%,而有MSTH的模型则几乎不受影响,凸显了这一设计的核心价值。
2026-03-09 18:34:24
371
原创 中国团队“霸榜”AAAI 2026!从最佳论文到HF热门:港科广VLA成果6连发背后的技术路径
VLA-Adapter的核心贡献在于“降门槛”——通过对桥接范式的优化,在不牺牲性能的前提下,大幅降低了VLA模型的训练、推理成本,使小团队和工业场景的部署成为可能,推动了VLA技术从“学术研究”向“产业应用”的落地。这一研究的关键突破在于“从被动执行到主动判断”,使VLA模型具备了基础的逻辑推理能力,而RAMA基准的公开也为领域提供了统一的鲁棒性评估标准,推动了VLA模型从“能执行”向“会判断”演进。中间层原始特征+深层动作查询特征的组合最优,且多层特征优于单层。该方法的关键优势是“零改动适配”——
2026-03-09 17:27:25
300
原创 李昊昂、王贺升等提出“会做梦的 SLAM”:从被动感知到主动想象,探索效率提升超 30%!
在建图质量方面,如下图所示,在TUM动态数据集的一个典型场景中,其他方法(如MonST3R、WildGS-SLAM)的重建结果要么无法处理动态前景(a),要么背景模糊、前景丢失(b),而PG-SLAM虽然能同时重建,但质量较低(c)。(b) Dream-SLAM则同时利用动态前景与静态背景——通过将t时刻的高斯渲染结果与"梦"出的跨时空图像对齐,该图像描绘的是从第(t+1)帧相机视角观察到的t时刻场景,从而为定位提供了更丰富、更鲁棒的约束信号。此外,论文还通过详尽的消融实验证明了“做梦”机制的不可或缺性。
2026-03-06 16:00:12
392
原创 端到端新思路!北交&小米提出DriveWorld-VLA:自动驾驶的VLA统一世界建模
它以LLM潜态空间打破表征壁垒,依托DiT架构实现动作条件下的可控因果推理,通过三阶段渐进式训练保障联合优化稳定性,推动自动驾驶决策从“反应式”向“前瞻式”升级,也印证了端到端自动驾驶的决策优化,可通过架构创新实现“感知-推理-规划”的深度协同,而非单纯依赖复杂传感器或海量标注数据。模型首先基于当前观测预测动作,再通过去噪器生成该动作对应的未来场景,随后由奖励函数R评估“动作-场景”的匹配度——奖励分数不仅考量轨迹的安全性(如是否碰撞、是否偏离车道),还兼顾效率(如行驶进度)与舒适性。
2026-03-03 15:50:17
661
原创 斯坦福李飞飞团队新作:首次在具身智能部署阶段,实现“双”反思,计算效率提升 5 倍
实验数据与真实机器人测试均证明,这种反思驱动的学习方式,能有效解决长 horizon 任务中的失败恢复、时序信用分配等核心难题,为家庭服务、工业操作等复杂场景的机器人应用提供了可行路径。跨环境泛化实验中,模型在仅基于合成场景训练的情况下,在HM3D真实感3D环境中仍实现19.5%的成功率,远超所有基线方法,证明反思机制对分布偏移的鲁棒性。计算匹配实验证实,即使给基线方法3倍的动作预算,其性能仍远低于框架,说明反思带来的是决策质量的本质提升,而非单纯的计算投入增加。
2026-03-02 17:24:36
588
原创 VLN范式大洗牌|10篇力作,拆解2026年VLN四大核心突破方向
多智能体系统(上)协调开销大;DACo(右侧)通过明确的"全局指挥官+局部执行官"角色划分,在简化系统设计的同时,实现了更稳健的长时序导航推理,在R2R、REVERIE、R4R三个数据集上取得了4.9%到6.5%的绝对成功率提升。可以预见的是,未来的VLN智能体,将是一个既能“仰望星空”(进行长远规划和想象),又能“脚踏实地”(在复杂环境中精确执行)的通用物理世界助手。随着核心技术的成熟,VLN的研究开始向更具挑战性的垂直场景拓展,从室内走向室外,从地面走向空中,对导航的可靠性和鲁棒性也提出了更高的要求。
2026-02-28 17:42:41
721
原创 高飞团队新作!基于高阶CBF的端到端无人机,实现7.5m/s丛林穿越,突破RL安全瓶颈
在无人机高速避障领域,Ego-Planner等传统的模块化规划方法受限于感知-规划-控制的累积延迟,往往难以兼顾高速与安全;而RL等纯端到端的强化学习虽然敏捷,却因缺乏理论上的安全保障而被视为黑盒。的这项工作,最令人振奋之处在于巧妙地构建了一套混合架构。在训练阶段,利用引导 RL 智能体跳出局部极小值陷阱 ,实现了全局可达性;在部署阶段,则引入了基于的安全滤波器,将神经网络输出的动作实时投影到可行域内。这种设计不仅在数学上给出了碰撞避免的严谨证明,更在实测中实现了高达的丛林穿越速度。
2026-02-28 17:09:42
1076
原创 港科大谭平团队 2025 年度盘点:从三维生成到具身智能的全栈突破
「重塑 3D AIGC 与具身智能」目录01 三维资产生成:构建数字世界的基石 1. Step1X-3D: 迈向高保真、可控的纹理化3D资产生成 2. UniTEX: 面向3D模型的通用高保真生成式纹理 3. PacTure: 基于打包视图的高效PBR纹理生成 4. PoseMaster: 从单张图像生成任意姿态的3D角色02 三维场景理解与生成 5. SPATIALGEN: 布局引导的3D室内场景生成 6. SymmCompletion: 对称性引导的高保真点云补全03 视觉基础模型与应用 7. M
2026-02-27 17:10:15
638
原创 李飞飞&李曼玲空间智能新作:首次量化具身智能的空间认知能力 | ICLR 2026
这项研究的开创性价值,在于跳出传统 “被动推理” 或 “任务驱动” 的评估框架,提出首个聚焦 “空间信念构建” 的专属体系,将自主探索本身作为核心研究对象,还通过认知地图探测打破模型黑箱。研究表明,提供距离和角度参考图像可小幅提升性能,但仍需从模型架构层面优化——例如引入专门的视觉空间注意力机制,或预训练视觉-空间关系的映射能力,减少感知噪声对信念构建的干扰。:通过“虚假信念范式”(探索后移动/旋转物体)测试模型更新过时信念的能力,定义“信念惯性”指标衡量模型对旧有信念的依赖程度;
2026-02-26 19:00:36
852
原创 7篇标志性成果,看透机器人模仿学习8年关键突破
现在还得人类指定任务目标(比如“移动到目标位置”),未来是否能让机器人自己发现任务,比如“看到地面垃圾→自主捡起”。机器人的奖励分两部分:“任务分”(比如跑够速度)和“风格分”(鉴赏家给的评分),不用抄每一步,只要整体像人就行。:给机器人配个“风格鉴赏家”(对抗训练的判别器),专门对比机器人动作和人类动捕数据的“整体感觉”。,但具身智能的终极目标是“自主行动”——从“学人类动”到“为目标而动”,还有很长的路要走。而且“像人”的标准很主观,到底是“运动员跑”还是“普通人跑”,全看数据集,没有统一答案。
2026-02-26 17:39:57
647
原创 英伟达140亿参数的DreamZero一出,VLA玩家集体沉默?
DreamZero基于预训练的140亿参数图生视频扩散模型(Wan2.1-I2V-14B-480P),它不是简单地用视频模型来"看",而是让模型同时"想象"未来的画面和"推算"对应的动作,将动作学习从传统的模仿学习转变为一种逆动力学推理。▲图5 | 已见任务评估。将在AgiBot G1上预训练的DreamZero,仅用30分钟的数据(55条轨迹,11个任务)就成功适配到了一个全新的双臂机器人YAM上,并且保持了强大的语言跟随和零样本泛化能力。值得注意的是,所有评估默认在未见过的环境和未见过的物体上进行。
2026-02-25 18:18:33
764
原创 Waymo发布全新世界模型!基于Genie 3,可模拟多种异常罕见交通场景
而Waymo World Model的核心独创性,正是精准破解这两大难题:它没有从零搭建专属仿真模型,而是将DeepMind Genie 3的通用世界知识与自动驾驶场景深度结合,既跳出了自有数据的局限,又解决了仿真真实感与一致性问题,重新定义了自动驾驶仿真的技术范式。这一功能的价值在于,突破了车队采集数据的限制——普通人拍摄的海量真实视频,都能成为仿真数据源,且基于真实画面生成的仿真,真实感与事实准确性达到最优,相当于给仿真库开辟了无限的民间素材渠道。通过三大可控机制,实现长尾场景的高效定制化仿真;
2026-02-25 10:45:58
543
原创 触觉真能改变VLA的能力边界吗?解读首个VLA+触觉的硬核突破
▲图7|该表展示了不同模块被移除后的性能变化。前者靠视觉引导完成粗粒度动作,后者需要精准感知接触力度、调整施力角度,而这些 “用力的学问”,恰恰是当前 VLA 缺失的核心能力。通过不同形状、曲率和硬度的接触物体,系统性地采集了丰富的触觉–力对应关系,为后续模型学习“触觉背后的力含义”打下基础。现在的 VLA 模型,已经越来越会“看”和“听”,但一旦进入真实接触阶段,依然显得笨拙,对力的理解几乎是空白——现有 VLA 模型最大的问题在于“力盲”,于是将研究重点从“触觉–视觉对齐”转向“触觉–力对齐”。
2026-02-24 14:58:40
619
原创 单目摄像头看深度的第一性原理
图像中不同区域的特征对深度推断的贡献不同,例如,物体的边缘、纹理等特征,比背景的纯色区域更具参考价值,通过注意力机制,可让模型自动分配注意力权重,重点关注高价值特征区域,弱化无价值区域的影响,从而提升深度估计的精度与效率。图像中,近处物体的特征的细节丰富,远处物体的特征较模糊,通过多尺度特征融合技术,可将图像的浅层特征(捕捉细节,适用于近处物体)与深层特征(捕捉全局信息,适用于远处物体)进行融合,让模型既能精准预测近处物体的深度,也能有效捕捉远处物体的深度信息,避免出现。
2026-02-13 18:41:20
632
原创 Nature新刊Sensors:清华团队突破机器人触觉难题,多模态感知精度直逼人类指尖
在机器人领域,“触觉”一直是个棘手的难题:传统传感器要么分辨率低到摸不清纹理,要么只能测压力却辨不出温度。近日,清华大学丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构在《Nature Sensors》上发表的,直接打破了这个僵局——借鉴鸽子的多光谱视觉原理,把多光谱成像、摩擦电传感、惯性测量揉进,不仅能精准识别纹理、材质、温度,还能预判碰撞和滑动,分类准确率超94%。
2026-02-13 18:40:53
757
原创 理想开源首个度量深度Scaling模型!2000万数据重塑3D感知,10项任务刷新SOTA
Metric Anything的价值,不止是“刷新了多个SOTA”,更重要的是它为度量深度估计提供了一套“规模化、通用化”的解决方案——打破了“数据异质性”“传感器依赖”“任务专属设计”的三重枷锁,证明了度量深度也能像2D视觉那样,通过“数据+极简prompt”实现scaling。Metric Anything的实力,不是靠“堆参数”,而是靠“数据+设计”的双重优势——不管是有prompt的适配任务,还是无prompt的通用任务,都跑出了SOTA性能,还首次验证了度量深度估计的scaling趋势。
2026-02-12 17:43:52
594
原创 无人机操控新方式!Glove2UAV实现手势直控+触觉反馈,还能盲感知风险
现在也有不少无人机厂商尝试简化这种复杂的遥控器操作,比如将遥控器换成单手操控的惯性摇杆,结合VR眼镜一起控制无人机(如大疆的FPV穿越摇杆,影翎A1等),但是这种操作方式仍然需要时间适应,并且没有解决飞手操控无人机时同时需要处理的信息过多的问题。图5|抓取任务,验证手势不仅能“飞”,还能“做事”。作者没有堆大模型,而是用中值滤波、互补滤波等等轻量方法,把 IMU 信号处理做成可实时跑的链路,这些算法足够轻量化,能够轻松Cover手势实时交互控制的场景,同时也经受过广泛的验证,具备足够的鲁棒性。
2026-02-11 18:31:25
644
原创 具身智能:一场代码对物理的“幼稚想象”。。。
这并非追求那种“时而惊艳、时而失效”的演示性智能,而是构建一种趋近工程系统的智能特质:遇到分布外能自救,遇到遮挡能重建,遇到风险能收敛,遇到失败能把失败变成下一轮的训练数据。假设我们有足够强的验证手段,能把这个模块丢进各种地形、光照、传感器噪声、不同机器人平台里跑一轮,进而将暴露出的失败案例持续纳入回归测试集予以追踪和修复,该领域的进步无疑需要新的模型、新的策略、新的世界模型。然而,当我们将同样的逻辑照搬进具身智能领域,试图用代码的“迭代速度”去驾驭物理的“混沌现实”时,一种深刻的错位便出现了——
2026-02-10 18:00:48
604
原创 清华大学:首次将“环境感知”与“全身运动跟踪”,统一到端到端强化学习框架
Deep Whole-body Parkour 提供了一个“如何让机器人既会做精细全身动作,又能适应环境变化”的可行路径。以前的人形控制,要么是“感知强、动作弱”,要么是“动作强、感知弱”,这次的融合思路,其实更贴近人类的运动模式——我们做跑酷动作时,也是边看障碍物边调整手、脚的位置,而不是先背一套动作再硬套。当然,这条融合路径未来要走的路还很长:比如如何让机器人自主选择动作?如何处理弹性、可变形物体?如何降低训练成本?Ref论文名称:Deep Whole-body Parkour。
2026-02-10 10:19:36
1126
原创 浙大最新idea登Science子刊:视-触觉双模态预训练+强化&模仿学习,突破灵巧操作瓶颈!
而在线采集的状态来自统一策略自身的交互,与专家策略的状态分布更对齐,训练稳定性大幅提升。该方法在训练过程中,让当前的统一策略不断与环境交互,采集实时状态,然后查询对应任务的专家策略获取最优动作,将“状态-专家动作”对加入训练数据集;通过分析触觉接触的持续时间分布,发现该策略的接触模式与人类演示的相似度(KDE MSE值)远低于单模态策略,说明其操控动作更接近人类的操作习惯。虽然能借助演示数据提升效率,但依赖任务专属的精准演示,收集不同任务、不同物体的多样化演示数据成本极高,很难训练出通用的操控策略。
2026-02-09 18:08:01
682
原创 Nature子刊|浙大高飞团队连发两篇重磅!15Hz端侧大模型导航 + 空中灵巧手
值得注意的是,论文将“变形状态”和“飞行模型”统一纳入系统建模中,使机器人在抓取物体、受到外界干扰时,依然能够保持稳定飞行,这是后续复杂操作能够顺利完成的关键基础。无人机执行一些飞行巡航任务,已经很成熟了,航拍、测绘、巡检,几乎成了默认工具,在第一项工作之中,无人机甚至能够找到我们所需要的物体。不同于常见的体素地图或稠密点云,这里使用的是一种基于 多面体扩展 的方法:无人机在局部占据栅格中,以当前位姿为起点,通过球面采样和射线检测,生成能够近似自由空间的多面体。这种矛盾,长期限制了空中操作机器人的落地。
2026-02-08 20:23:42
703
原创 高斯溅射终于“有几何”了!港科大沈劭劼&谭平团队:NeRF级精度+实时渲染,训练仅需15分钟
沿用 “透射率降到 0.5 时的深度” 作为物体表面深度 (),但关键在于透射率的计算方式变了:传统方法: 透射率是离散乘积 (每个高斯的不透明度独立作用), 曲线是 “台阶状”;新方法: 透射率是连续乘积 (每个高斯作为随机固体的体积衰减), 曲线是 “平滑状”。平滑的透射率曲线让中位数深度的计算更稳定, 不会因为某个高斯点的微小偏移就 “跳变”, 自然解决了锯齿问题。
2026-02-06 12:18:20
633
原创 盘点|苏黎世大学机器人与感知研究组2025年重磅研究成果一览
在控制层面,可微分仿真与强化学习的结合显著提升了四足与飞行机器人在极端动态下的适应性;实验证明,该框架在训练速度上实现了7倍以上的提升,且仅需不到20%的样本量即可在分钟级时间内完成基于纯视觉特征的四足平稳控制,成功实现了从仿真到真实世界的零样本迁移。该方法通过将可微MPC嵌入Actor-Critic架构,利用RL自动学习MPC的代价函数,有效解决了模型失配和复杂任务描述的难题,在保持RL灵活性的同时引入了控制理论的安全性与可解释性,最终在真实无人机竞速中实现了21m/s的超人类速度与极强的抗扰动鲁棒性。
2026-02-05 10:54:35
591
原创 人形机器人全身控制误差降低15%!RL 预训练+微调,开源框架直接复用
▲真机实验演示,也是最关键的落点:H-GPT 在 4090 工作站上把语言指令变成全身动作,再经过动作重定向交给机器人,机器人端由 H-ACT 控制策略负责把动作“做稳”。,靠H-GPT的 CoT 推理把模糊指令,转化为人体动作序列;FRoM-W1 用 H-GPT 解决“语言到全身动作”的生成问题,用 H-ACT 解决“动作到真实稳定执行”的落地问题,并开源整套系统。,模型在给定指令后,会先产出 CoT(动作分解思路),再输出动作 token,最后由解码器把 token 还原成连续的全身动作序列。
2026-02-04 17:25:14
632
原创 SLAM研究风向变了!从这些顶刊顶会看 SLAM 最新的研究趋势......
具体而言,首先构建混合光流网络,生成具有几何感知的对应关系,确保不同关键帧间深度与位姿推理的一致性;构建可靠性感知优化机制:基于双向一致性束调整层输出的几何残差,构建像素级可靠性掩码,对可靠区域和不可靠区域分别采用不同的光流更新策略(可靠区域依赖局部相关性优化,不可靠区域依赖几何先验的上下文信息修正),有效改善遮挡、低纹理等复杂区域的光流估计精度,避免误差累积。伪深度与3D高斯映射融合:利用3D高斯天然编码不确定性的特性,适配伪深度的误差与噪声,解决纯伪深度输入下几何重建不准确的问题,无需依赖深度传感器。
2026-02-03 16:41:25
919
原创 仅占投稿4.5% | 推荐入选 AAAI2026 Oral 的6篇具身智能硬核成果,均聚焦落地痛点
该研究针对现有具身智能任务规划忽略运筹学(OR)知识与3D空间接地的局限,提出“基于运筹学知识的3D接地任务调度(ORS3D)”新任务,要求智能体融合语言理解、3D空间定位与效率优化,通过挖掘可并行子任务(如微波炉运行时清洁水槽)的等待时间最小化总执行时间。GRANT整合3D场景编码器、LLM、STM与3D接地头,在OR3D任务中同时提升调度效率(+30.53%)、3D接地精度(+1.38%)与综合性能(+10.46%),为具身智能并行任务执行提供新方案。
2026-02-03 16:12:10
677
原创 1/16算力撼动SOTA!MAD以极低成本实现顶尖驾驶世界建模
MAD 提供了一种很有代表性的答案:在复杂的具身场景中,与其追求一步到位的端到端生成,不如先明确哪些信息真正决定“行动是否合理”。通过将运动与外观解耦,MAD 不仅显著降低了训练成本,也让世界模型更接近一种可解释、可控、可推理的结构。这对于自动驾驶、机器人仿真乃至更广泛的具身智能系统,都是一个值得反复琢磨的方向。当模型开始先“想清楚怎么动”,再决定“世界长什么样”,也许我们离真正可用的世界模型,又近了一步。REF。
2026-02-02 17:27:22
991
原创 21m/s!UZH RPG组T-RO新作AC-MPC:微分MPC赋能强化学习,实现超人级无人机竞速
UZH RPG组的 AC-MPC 工作提出了一种将可微MPC无缝嵌入到Actor-Critic 强化学习框架的全新范式。该方法打破了传统学习动作的桎梏,转而让策略网络学习 MPC 的内部代价函数,从而在保留 RL 强大探索与端到端优化能力的同时,充分利用了物理模型处理约束和动态规划的优势。
2026-02-01 17:30:57
841
原创 AI Skills——AI时代的标准化魔法书
创新设计了分层加载逻辑:模型初始仅访问技能元数据,仅在主动调用时才加载完整指令与文件内容,既保证了能力的丰富性,又控制了资源消耗,为。,整合了人类工程师的故障判断经验,能够快速识别异响、渗漏等异常情况,并给出处理建议。这种生态的形成,将打破平台壁垒与行业边界,促进知识的高效流通,激发。也对行业提出了新的要求,如何保障技能的安全性、合规性,如何建立合理的价值分配机制,将成为行业发展的重要课题。当平台缺乏目标能力时,通过调整技能中的执行步骤,替换或删减无载体的环节,保留可执行部分。
2026-01-30 18:17:35
748
原创 踩遍VLN开源项目的坑后,最推荐新手复现的是这4个……(亲测复现率100%)
回过头看这四篇工作,其实并不难发现一条非常清晰的演进脉络:VLFM 展示了 VLN 最“原始”的样子:地图、前沿、语义代价函数,逻辑直观、模块清晰,非常接近经典机器人导航的思路;NavGPT 把导航决策显式地交给大语言模型:通过 prompt 进行高层推理,展示了语言推理在导航中的潜力;NoMaD 代表了端到端学习路线:用统一的扩散策略同时处理探索与到达;Uni-NaVid 则进一步走向统一的VLA建模,体现了当前最前沿的 VLA 思路。如果只从“代表性”来看,这四篇都各自站在一条重要的技术分支上。
2026-01-29 18:23:19
1535
原创 近半年,无人机 + 大模型的 8 大 “出圈” 硬核研究
在野外让无人机做 3D 扫描,真正难的不是“飞起来”,而是“飞得像个懂事的人”。作者认为未来的人机交互会从工程师预设的固定流程,走向用户驱动的个性化任务设计,但现实卡点也很直白:用户说的是自然语言,无人机懂的是动作与约束,两者缺一套“共同语言”,所以复杂任务经常落到“要么说不清,要么执行跑偏”。:这篇工作提出 VLA-AN,把“视觉-语言-动作(VLA)”这套大模型能力,真正塞进一台资源紧张的无人机里,让它在复杂环境里闭环自主导航,而不是停留在“能看懂、能说对,但飞不稳/跑不动”的阶段。
2026-01-29 17:18:18
736
原创 Science Robotics 首篇里程计: CMU 让机器人遇退化场景 “自动升档”,稳跑不丢轨迹
图中对比了长走廊不同区段中,视觉与 LiDAR 里程计在融合中的相对权重变化,并通过地图着色标注各区域的主导模态:当某一模态在融合中的权重超过 50% 时,即被视为该区域的主要信息源。并采用基于置信度的软融合策略,将 IMU 与 LiDAR 的输出进行平滑组合,从而避免生硬的“硬切换”带来的不连续与不稳定。视觉退化(低光、模糊、遮挡等)、几何退化(长走廊或空旷区域导致约束不足)、混合退化(视觉与几何线索间歇性同时变差),以及最极端的 完全退化(例如浓烟环境中,视觉与 LiDAR 同时失效, 见图 1)。
2026-01-28 18:23:56
659
俞刚-物体检测的过去、现在和未来.pdf
2020-09-07
矩阵指数与对数运算的实现
2014-10-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅