自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(579)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 具身智能、端到端、自动驾驶、大模型......技术交流群汇总

深蓝学院搭建了16个领域的交流群(具身智能、端到端、自动驾驶、机器人、大模型......等等),小伙伴们可以在群内交流、分享问题、获取行业资讯。这样在各大企业工作的,可以相互内推,互通信息;在学校读研读博的,可以交流想法,携手合作。截至目前,我们的社群已经细分到了【16】个子方向的领域,并且还在不断地壮大规模!不限学校、不限专业,只要你是人工智能相关行业的人就能加入(社群内会有。的面试题以及论文资源,还有相关领域的小伙伴一同学习、交流!所以,如果你想要跟更多优秀的小伙伴扎堆学习成长,后台私信。

2025-11-17 10:28:42 170

原创 2024年自动驾驶规划控制面试及答案

A*吸取了Dijkstra 算法中的cost_so_far,为每个边长设置权值,不停的计算每个顶点到起始顶点的距离(G),以获得最短路线, 同时也汲取贪婪最佳优先搜索算法中不断向目标前进优势,并持续计算每个顶点到目标顶点的距离(Heuristic distance),以引导搜索队列不断想目标逼近,从而搜索更少的顶点,保持寻路的高效。DWA,TEB算法。通常情况下,在机器人高速运动的时候,想要得到非常连续、平滑、噪音低的运动控制,第3个约束条件是必不可少的,有的甚至还要求加速度的导数jerk都是连续的。

2024-07-22 18:43:12 1739

原创 综述精读 | 上海交通大学:机器人3D表征的50年迭代史

▲图5|神经三维表征的技术谱系与未来方向:这张图总结了神经三维重建的三大代表路线:NeRF、3D 高斯表示以及基于椭球体的体积渲染。它第一次让机器人打通了 “视觉 - 语言 - 动作” 的完整链条,这正是具身智能的核心,也是当前 Vision-Language-Action(VLA)领域研究的核心灵感来源。追本溯源,3D 场景表征不是凭空发明的,每一代技术都是为了解决当时机器人的 “痛点”,所以理解当下技术,得先知道过去的机器人到底 “缺什么”。它需要的是毫米级的精确坐标,还是带有语义的物体概念?

2025-12-19 17:39:10 715

原创 自动驾驶目标检测十年进化之路:从像素、点云到多模态大模型的时代

这样的方式保留了最丰富的底层信息,但也对标定精度提出了更苛刻的要求,同时输入维度大、计算成本高,使其更适合算力充足、精度优先的系统。也因此,目标检测经历了过去十年最剧烈的技术更替:从早期的 2D 摄像头识别,到 3D 点云深度建模,再到 2D–3D 融合、Transformer 框架、乃至近两年兴起的。过去目标检测的处理链路主要包括图像或点云的几何建模,而近两年研究者将语言模型(LLM)与视觉语言模型(VLM)引入自动驾驶系统,希望通过更强的语义理解能力来弥补传统模型在高层推理方面的不足。

2025-12-18 18:10:01 451

原创 华人领军!盘点国外21个知名具身智能实验室,及其商业布局

实验室隶属牛津机器人研究所(Oxford Robotics Institute, ORI),致力于开发能够增强人类能力的自主系统,研究重点在于提高机器人的感知、解释、行动、导航、协调和协作能力,以在关键领域如社会护理、制造、物流、服务、检查和农业中提高生产力。成立于 1979 年,是全球领先的机器人研究机构之一,汇聚了顶尖的学术专家和研究人员,专注于机器人感知、控制、规划和智能系统等领域,其研究涵盖从自主车辆和人机交互到医疗机器人和工业自动化等多个应用领域。卡内基梅隆大学机器人研究所的博士后研究员)

2025-12-17 18:10:23 865

原创 盘点 | 2025顶会顶刊:多智能体研究的两大路径,暴露了同一个本质困境!

复杂任务:将手表和钥匙圈放入抽屉,然后关掉电视。摒弃传统模仿弱算法的局限,直接模仿高效可扩展的 W-MAPF-LNS 算法(2023 国际竞赛冠军核心),通过自举迭代训练(12 轮迭代,每轮收集 1500 万动作 - 观测对),解决 “训练 - 部署场景脱节” 问题,确保大规模泛化性。举个例子:IL/RL 是 “学生学习的两种模式”(跟着老师学 / 自己试错学),分层学习是 “学习的组织方式”(先学基础知识点、再学综合应用),二者可叠加(比如 “分层跟着老师学”“分层自己试错学”)。

2025-12-16 17:49:33 574

原创 让一张照片“变立体”:Meta 发布 SAM 3D,实现真正的单图 3D 重建

在物体布局任务中,无论是 SA-3DAO 这样的真实自然图像集合,还是 Aria Digital Twin 这类带有深度信息的评价集,SAM 3D 的布局预测始终更接近专业 3D 艺术家的结果,优于传统的 pipeline(如 3D 形状 + Megapose 或 FoundationPose)以及其他联合建模方法,表现为旋转角度更准确、尺寸比例更合理、物体位置更贴合实际拍摄场景。基于 SA-3DAO 的艺术家标注几何作为参考,SAM 3D 在单物体形状重建上展现出更高的完整度与稳定性。

2025-12-15 17:08:38 903

原创 人形机器人“摔倒自由”的背后:一场对精确规划主义的沉默反叛……

▲图2|不适合在现实机器人上使用的“错误保护动作”示例:这些是机器人在早期训练中出现的异常动作,例如用手臂生硬顶地等,看似能完成任务,但在真实硬件上极易造成关节受损,因此需要在训练中剔除。▲图4|机器人自主学会的“手臂三角结构”:该图突出展示了机器人在训练中形成的关键保护姿势——双臂撑地构成稳定三角形,用来缓冲冲击力,并保护头部与躯干不直接撞击地面。从行为分析来看:它不是简单“模仿人类摔倒姿势”,而是在数千次仿真摔倒训练中,它淘汰了 “直臂硬顶地面”“单臂支撑” 等容易断裂的动作,最终锁定了三角结构 ——

2025-12-14 17:24:01 429

原创 用极致的数学思想,解决了机器人99%的控制问题,剩下的1%……

上图来自于中山大学联合X-Era AI Lab等团队提出的ε0——一个基于“连续化离散扩散”的VLA模型框架。这种方法的价值,在于它从挑战”现有框架,试图通过理论上的彻底性,来解决VLA模型当前所面临的根本瓶颈。与其说是它一个解决方案,不如说是一份清晰的技术路径宣言:本文将抛开复杂的公式推导,重点与大家探讨这个框架究竟如何重新思考“动作生成”这一核心问题。研究其理论“野心”,看清其路径价值,在数学的优雅与现实的硬约束之间,定位这项研究的真正坐标。

2025-12-12 18:18:41 588

原创 顶会盘点 | NeurIPS 2025 六篇最佳论文:从底层视角“重审”具身智能……

作为机器学习领域的顶级会议,NeurIPS 每年评选出的最佳论文,常被看作AI研究的风向标。但投稿量创历史新高(21575 篇),较 2024 年增长约 37.7%,可见竞争激烈。那么,在这2万+研究中脱颖而出的获奖成果,又为AI的当下与未来揭示了什么?因此,这篇文章将从具身智能的立场出发,精选 6 篇 NeurIPS 2025 的获奖论文(best and runner-up paper awards)进行解读。,而是关注它们背后的底层机制是否能够与现实世界的感知、控制、规划系统形成链接。

2025-12-11 18:08:25 1186

原创 VLA + 世界模型:又一次漂亮的补位,和一个更深的“陷阱”……

RynnVLA-001专注于通过12M自我中心视频的两阶段预训练(视频生成+轨迹感知建模)来改善机器人操作的动作预测;

2025-12-10 17:57:34 720

原创 何凯明颠覆图像生成本质:当大模型终于回归“真正的去噪”

结果显示,H/32 模型达到 1.94 的 FID,而 G/32 模型更是达到 1.78,证明在超高维 patch(3072 维)下,x-prediction 仍能保证良好的可训练性。以 256×256 分辨率为例,随着模型规模从 Base 到 Large、再到更大的 H 和 G,FID 指标不断下降:JiT-L/16 已能达到 2.36,而 H 与 G 级模型更是进入 1.x 区间,其中 JiT-G/16 达到 1.82,与当前依赖复杂 latent 空间或自监督特征的大型扩散模型处在同一水平。

2025-12-08 16:41:47 870

原创 Github 7700 star:UFO³让 AI 能指挥你所有设备

如果你今天让一个大模型帮你“处理一件事”,它通常只能在一个设备上执行——要么是电脑,要么是手机,要么是云端服务器。研究者希望让大模型不再是一个孤立的智能体,而是一个能操纵整个设备星系的“总指挥官”,实现真正意义上的跨设备协作。真实世界的设备环境一定会掉线、延迟、拥挤,而 UFO³ 的任务星座机制让系统天生具备“自愈能力”下达一个任务后,每台设备都会贡献自己最擅长的能力,而系统会在背后不断重绘任务蓝图,直到目标完成。如果 AI 没有一个统一的“任务世界观”,它就永远无法真正跨设备执行任务。

2025-12-07 15:42:08 948

原创 吴恩达最新一年做了什么?一文看懂他的 AI 落地路线全景图

从斯坦福机器学习课程,到 Google Brain 的奠基,再到百度大脑的工程化实践与 Coursera 的在线教育革命,再到 Landing.ai 引领的工业 AI 现代化,吴恩达的职业轨迹几乎对应了过去二十年 AI 的几次关键跃迁。虽然论文聚焦于天然气压缩站这种特定设施,但其核心思想具有普适性——通过训练视觉模型,让 AI 从遥感图像中自动定位关键结构,弥补传统数据库的缺口,并为环境监测、资源管理等更大范围的问题提供更加可靠的数据基础。左图展示生成器的层级结构,右图展示模型生成的“分形式”结果。

2025-12-05 18:12:34 502

原创 对话πRL一作:RLinf流匹配 VLA 在线强化学习框架!π系列模型成功率提升至98%

这类模型能以极简方式建模多峰分布,生成高维、平滑的连续动作序列,在复杂操控任务中展现出显著潜力。强化学习可通过环境交互自主探索与迭代,有望降低对演示数据的依赖,并进一步提升模型性能上限。目前,针对流匹配VLA的强化学习方法仍较为缺乏,主流研究多集中于自回归架构的VLA(如OpenVLA)。其核心挑战在于:流匹配模型通过迭代去噪生成动作,难以直接计算动作的对数似然,而这正是PPO、GRPO等策略梯度算法更新的关键。在此背景下,清华、北大、CMU等多个国内外知名团队,共同提出了πRL——

2025-12-04 17:39:04 340

原创 VLA,正在沦为纸上谈兵的“学术游戏”。。。

据综述《A Survey on Efficient Vision-Language-Action Models》所示,2023-2025 年间,在基础 VLA 模型持续迭代的同时,高效 VLA 从 2024 年底开始呈现爆发式增长,成为衔接模型能力与实际部署的关键赛道。通常则通过视觉和物理参数的域随机化、光线追踪的光照真实渲染、涵盖照明条件、相机视点、背景纹理和对象外观的系统增强,以及结合大规模仿真数据与最少真实演示的混合训练来解决。相关投稿量,从去年的个位数飙升至超过150篇,足足增长了近18倍之多。

2025-12-03 18:08:08 616

原创 未来的“空中搬运队”:Science Robotics发表高敏捷多机协作系统

(A) 在仿真中,随着风速的增加,研究方法在5 m/s风速下保持了较低的跟踪误差,而传统方法在相同条件下则表现较差。(B) 和(C) 展示了在实际风场中,四旋翼系统在风速5 m/s下,依然能够成功完成轨迹跟踪任务,证明了该方法对外界扰动的高鲁棒性。(A) 在各种负载模型不匹配和通信延迟的情况下,研究方法依然能保持较低的跟踪误差,展示了它在不完全信息下的优越性能。,无人机不仅能高效规划未来动作,还能处理时效性强的复杂任务,尤其是在大加速度飞行过程中,避免了传统方法在高频指令下的不稳定现象。

2025-12-02 17:42:33 481

原创 从 π0 到 πRL:清华团队打通“流式具身模型”的强化之路

π0 平均成功率由 41.6% 提高到 85.7%,π0.5 从 40.1% 提升至 84.8%,证明该框架能在复杂、多样的具身环境中稳定扩展。SIMPLER 基准结果:在四项高精度操控任务(如放置勺子、胡萝卜、积木等)中,πRL 让 π0 的平均成功率从 67.2% 提升至 86.7%,π0.5 则从 59.2% 提升至 79.1%,展现出持续的自我强化效果。,将去噪方程改写为随机微分方程,在保持分布一致的前提下引入探索性噪声,构建了内外双层 MDP,使模型能在“生成”和“交互”两个层面同时学习。

2025-12-01 19:05:58 874

原创 让机器人“脚踏实地”:KAIST发布全球首个物理约束人形运动数据集 PHUMA

研究团队发现,直接用网络视频生成的人体动作数据(如 Humanoid-X)虽然规模庞大,但常常存在漂浮、穿透地面、脚打滑等物理失真问题——对机器人来说,这些动作根本无法执行。传统的动作捕捉(MoCap)数据昂贵又稀缺,而互联网视频虽多,却往往缺乏物理约束,生成的动作虚假又不稳定。未来,团队计划将 PHUMA 推向真实场景,探索从仿真到现实(Sim-to-Real)的迁移,并结合视觉输入,让机器人“看视频就能学”。在 G1 上,PHUMA 训练的策略在所有动作类别(站立、转身、下蹲、奔跑)中平均成功率。

2025-12-01 15:05:21 577

原创 中国高校,正在终结一个时代。

以清华大学、浙江大学、上海交通大学、香港中文大学和香港科技大学为代表的高校,正在共同构筑中国具身智能研究的“技术地基”——从基础控制与软体执行器,到视觉语言模型与跨模态认知,再到手术机器人、微纳智能体与空地协同系统,中国学者的研究已不再局限于单一任务,而是向**“智能体—环境—任务”三位一体的认知闭环**不断延伸。数据,对近三年国内高校在机器人与具身智能领域的学术成果进行盘点,梳理代表性团队与研究方向,看看是谁在引领中国的具身智能研究,也看看这场“机器人智能化革命”,正如何在中国的高校实验室里悄然展开。

2025-11-30 17:11:28 771

原创 VLA 的下一个十年:10 大关键挑战,全解析

阅读这份《10 Open Challenges》最大的感受是:VLA 距离真正的“通用机器人”仍有相当长的路要走,但未来的突破方向已经非常清晰。未来的 VLA 不再是“看图 + 生成动作”的模式,而会逐渐拥有多模态 3D 世界理解、类人链式推理、全身协调控制、更高的安全性与效率、多机器人协作,以及自然语言层面的双向交流。Vision-Language-Action(VLA)模型的出现,让机器人具备了“看得懂、听得懂、动得起来”的雏形。但 VLA 的幻觉,会直接动手破坏东西,甚至伤人。

2025-11-28 18:25:10 707

原创 登上 Science 子刊的硬核成果,也离不开“限定物体”的红利?

但我们也要清醒地认识到,这更像是初步探索而非最终答案——真实场景下,机器人还需要对空间的深度理解、对物体抓举力度与摩擦力等物理因素的精准感知、以及针对不同环境动态调整动作幅度的能力。从实验室的可控环境到真实世界的复杂交互,从刚性物体到可变形材料,从开环执行到闭环反馈,MT3为我们指明了方向,但前方的路依然充满挑战。简单说,就是让机器人在执行新任务前,先从"记忆库"里找一个最相似的演示来参考——有点像学生做题前先翻翻例题,找个最像的来模仿。演示基于检索的对齐所使用的易于解释的姿态估计组件。

2025-11-27 17:50:02 595

原创 何恺明团队 2025 年度盘点:从结构到本质的深度学习再思考

进一步地,他们利用梯度优化机制与可插拔的损失函数(如重建损失或 CLIP 相似度)构建了一套无需生成模型训练的图像生成流程,在图像修复与文本引导编辑任务中展现出高度的多样性与真实感。在生成建模方面,研究团队尝试从“噪声、流动、表征”的角度重新审视现有扩散模型框架,提出更具稳定性与可解释性的生成机制,使得模型能够在保持高保真度的同时实现更高的计算效率。进一步分析发现,这些模型学习到的并非简单的记忆特征,而是具有可迁移性的语义表示,这揭示了数据偏差在更深层的结构性问题。这项工作以一种“反向思考”的方式,

2025-11-26 18:08:02 932

原创 VLN创始人吴琦团队再出手:Fast-SmartWay让机器人一步推理,直达目标

随后的导航仅依赖三张前向视图。在Hello Robot实机测试中,Fast-SmartWay仅用前向三视图即可完成导航,每步延迟缩短近60%,同时成功率提升至36%,导航误差降至2.78。在标准R2R-CE数据集上,Fast-SmartWay依然保持出色表现:它在仅使用前向视角的情况下,成功率(SR)达到27.75,超过Open-Nav-GPT4等方法。:它将深度图中的障碍信息转成自然语言提示,比如“向左30°方向有障碍物2.5米”,再与识别出的语义物体(如“钟表”“厨房”“楼梯”)一并组成提示输入。

2025-11-25 18:06:11 512

原创 Depth Anything 3:单一 Transformer 击败 VGGT,全景视角的 3D 几何新范式

要让AI真正理解世界,光会识别物体还不够,它必须“看见”空间。无论输入几张图片、是否提供相机位姿,Depth Anything 3 都能还原出一致的三维空间,生成精准的深度图与射线图,进一步融合成高保真点云与3D高斯几何。,可以在有无相机位姿的情况下,从任意数量的图像中恢复出空间一致的几何结构。未来,当语言模型学会理解空间,视觉模型如DA3学会重建空间,也许通用具身智能的拼图就差最后一块。DA3对于3DGS具备天然的支持性,通过简单的几个步骤即可用DA3生成非常精细的3DGS表示,实现逼真的三维渲染效果。

2025-11-21 17:45:53 1304

原创 李飞飞万字长文:AI的下一步,不在语言,而在空间

由 AI 生成的这段室内建筑场景,整体的平面布局和光影表现都相当自然,但一旦涉及具有“空间感”的复杂结构,问题立刻暴露出来。而在具身智能(Embodied AI)逐渐成为全球研究焦点的当下,李飞飞提出的“空间智能(Spatial Intelligence)”,恰好为这一领域补上了最关键的一块拼图。李飞飞创办的World Labs已经开放三代不同的世界模型供在线体验,小编建议各位读者点击链接亲身感受world model的神奇能力,看看完全由AI生成的“物理世界”(AI仍然是一个“盲人作诗”的存在。

2025-11-20 17:34:11 814

原创 首个VLA性能优化设计发展综述,解锁具身智能落地关键

策略类型原理优势劣势静态模型骨干网络以轻量级模型替代大规模预训练VLM骨干,通过缩减参数规模降低计算与存储开销直接高效,无需额外设计动态模块;核心任务能力保留较好,边缘部署可行性高过度压缩会降低模型能力上限,泛化性能受损,难以适配未训练的新场景、新任务动态计算路径训练时保留大架构以维持表达能力,推理时通过规则/指标动态选择有效计算层/路径平衡模型能力与效率,避免冗余计算;需完整能力时可调用全架构,适配不同复杂度任务需额外设计分支模块,增加训练开销;

2025-11-19 17:56:51 1080

原创 IROS 2025冠军方案!X-VLA:全球首个实现「120 分钟无辅助自主叠衣」的全开源具身智能模型

这是清华大学 AIR 与上海 AI Lab 最新发布的 X-VLA 模型——。而X-VLA的突破性意义在于。这让它成为首个真正能在统一模型中完成跨平台、跨任务、跨环境学习的 VLA 系统,为通用机器人智能开辟了新的路径。

2025-11-18 17:36:06 808

原创 业内推荐|IROS 2025 最值得关注的 9 篇自动驾驶领域工作!

以往的自由空间预测(Free-Space Prediction)往往将整片非障碍区域都视为可行驶区域,但在真实驾驶中,车辆只会沿着特定的可导航通道(Driving Corridors)行驶。4D毫米波雷达与激光雷达点云对比示意。学生模型仅输入多视角图像,并在鸟瞰图(BEV)与三维占据特征空间中进行多阶段特征蒸馏,从教师模型中学习高质量的空间表示,实现轻量级且高精度的三维环境理解。结果显示,该方法能准确识别策略相关的接管情形,并显著提升车辆在相似复杂场景下的决策能力,同时避免模型变得过于谨慎。

2025-11-17 17:51:51 951

原创 GEN-0深度剖析:物理交互数据如何重塑机器人学习的“扩展定律”

在此基础上,我们开创了 “预训练的科学” :通过系统性的 ablation studies,我们发现来自不同“数据工厂”的数据混合配方,会孕育出具有不同行为特性的GEN-0模型。Harmonic Reasoning的目标,就是让机器人获得这种“内化的娴熟”,而非一个“走走停停”的初学者。它通过在训练中建模感知与行动令牌流的异步、连续交互,使模型无需依赖反应式与深思式分离的双系统架构,也无需额外的推理时引导机制,即可在单一流式中实现决策的敏捷与智能,为模型规模扩展至超大参数量铺平了道路。

2025-11-13 18:06:48 822

原创 让机器人学会“礼让”:小米汽车团队的主动风险感知导航登场

风险模块会根据人与机器的距离预测潜在的碰撞风险,为每个附近行人生成一个连续风险值,并通过辅助损失信号(auxiliary loss)提升智能体的空间感知与避碰能力。更重要的是,这一模块在模型训练阶段扮演了“教练”的角色。该框架以摄像头的深度图像和目标位置作为输入,通过卷积神经网络提取视觉特征,再由循环神经网络(LSTM)学习时间上的变化趋势,输出机器人下一步的移动指令。论文中对于危险区域的划分公式:危险的得分从0开始逐渐增加到1,在论文中采用2m表示危险区的临界值,4m作为安全区距离的临界值。

2025-11-12 17:23:38 822

原创 沈劭劼团队 2025 年度盘点:更稳、更轻、更实用

通过以地图为中心的边缘化,即便长期多次采集,计算与存储也不会爆炸,适合城市级长期建图。从地图抽取“中心线”航点,考虑可见性与自体气流扰动来生成轨迹(位置、偏航、速度),最后转成电机控制。把 SD 地图中的道路/路口先验,引入并与鸟瞰特征(BEV)融合,同时做错位校正;等方向,强调“从算法到系统”的工程闭环与开源生态。开源,到后续在状态估计、SLAM、规划、空地协同上的持续输出,团队始终坚持“能复现、可部署、可扩展”的标准。”,兼顾可复现与工程落地,面向长期运行、低带宽与弱先验场景,强调通用性与可扩展性。

2025-11-11 15:36:44 936

原创 NeurIPS2025论文盘点:3D 渲染与重建的新风向

在完成几何与光度的联合优化后,当新的图像批次到达时,运动脚手架与动态高斯会在时间轴上继续扩展,从而实现在线的动态场景重建。该图展示了 GHAP 方法的整体流程。重建结果对比,可以看到应用提出的框架之后,可以将4DGS的重建大小进行极大地压缩(216.17MB VS 2.32MB)但是精度上的损失极小。观察细节部分,可以看到对于表面纹理的重建区域一致性更高,并且物体的边界区域重建效果分明,几何结构还原的非常准确。更值得关注:表示的选择、优化的思路、数据与评价的演进,最终会落到产业与具身智能的落地能力上。

2025-11-11 14:24:56 1315

原创 单帧LiDAR也能看懂世界?浙大团队打造无全局状态的避障算法CoNi-OA

但问题也随之出现:因为UGV本身在动,它的坐标系也是非惯性的。在这个坐标系下,即使地面上的障碍是静止的,也会表现为“在动”——墙壁、路障、甚至静止物体都会随坐标系的运动而“漂移”。为此,他们提出了 CoNi-OA,一种基于单帧 LiDAR 数据的速度调制机制,能在毫秒级别上修正无人机的运动方向,使其在动态坐标系中依然能保持安全、平滑的飞行。图1|无人机通过 CoNi-OA 算法,在地面车(UGV)的旋转平台上实现精确降落。绿色轨迹为原先规划的安全路径,当平台运动导致路径受阻时,无人机能主动绕开障碍并重新对准

2025-11-10 18:38:26 863

原创 13K 高质量 CoT 数据 + 三重可验证奖励,VLA-R1 如何刷新 VLA 模型泛化与实操能力?

在具身智能领域,VLA 被认为是通往通用机器人智能的重要路径。它们试图让机器人同时“看得懂世界”“听懂人话”“做出行动”,从而实现跨任务、跨场景的泛化。然而,当前主流VLA模型存在两大痛点:“黑箱式动作输出”—— 现有模型常直接蹦出最终动作坐标,却跳过 “判断物体可抓区域”“避开障碍物”“选对容器” 等关键推理步骤,遇到颜色相似的碗、重复摆放的水果,就容易 “抓错对象”;

2025-11-10 14:31:43 662

原创 IROS 最佳论文提名|FruitNeRF++:教AI数遍整个果园的神经辐射场

实例场保存每个水果的特征向量,用于区分个体。研究者首先利用视觉基础模型(Grounded-SAM或Detic)生成每个水果的实例掩码,然后将这些掩码转换为高维实例嵌入(Instance Embedding),融入NeRF的隐式场中。接着,系统在神经辐射场中联合训练外观场、语义场与实例场,最终通过聚类点云获得精准的水果数量。模型学到的不是“圆的就是苹果、椭圆的是芒果”,而是“特征相似的属于同一个个体”。研究者将每个体素点的实例嵌入作为样本,在训练中让“同一个水果”的点特征彼此靠近,不同水果的点远离。

2025-11-09 17:52:00 728

原创 ICCV最佳学生论文:FlowEdit,让AI告别“反演”,学会自然地改图象

这组对比图揭示了 FlowEdit 和传统方法的根本区别:(a) 在以往的编辑方式中,图像需要先“反演”成噪声,再按目标提示语重新生成,这会导致结构丢失。(b) 作者将这一过程重新理解为“从源分布到目标分布的直接路径”,并用速度场(绿色和红色箭头)计算出编辑方向(橙色箭头),得到无噪声的流动轨迹。简单来说,FlowEdit不再让模型“忘记过去再重新想象”,而是让它“带着记忆往前走”。”此外,它还能进行风格转换:如“照片改成动漫风”“湖边屋子变水彩画”,只需放宽结构约束,就能实现平滑的风格迁移。

2025-11-07 17:12:09 726

原创 李飞飞团队又出手了:一条示范,教机器人学会百种家务!

导读想象一下,让一个移动双臂机器人去做家务:擦平底锅、叠餐盘、拿杯子、清理桌面。这些任务看似简单,却要机器人同时控制,每一步都要又稳又准。问题在于——要让它学会这些技能,通常需要海量的人类遥操作示范,既费时又费力。而李飞飞团队的新作给出了一条新路:只需一条人类示范,它就能在仿真中“举一反三”,自动生成上千条的机器人操作演示。更关键的是——这些虚拟演示并非“空想”,而是经过物理与可视性约束的严格筛选,能真正转化为可部署的行动数据,让机器人从“看懂”走向“能做”。

2025-11-06 18:02:22 1069

原创 李飞飞 2025 年研究盘点:从视觉理解到具身智能的全景图谱

无论是 MOMAGEN 对机器人示范生成机制的重塑,还是 UAD 在无监督可供性蒸馏中的创新,抑或 BEHAVIOR ROBOT SUITE 在真实场景下的全身操控突破,都体现了团队在“从感知到行动”的闭环思维。实验结果显示,该框架在四类双臂移动操作任务中显著提升了数据多样性与模仿学习策略的泛化能力,并可通过少量真实数据(约 40 条演示)完成快速微调与真实部署,为大规模机器人演示数据生成提供了统一而可扩展的解决方案。该方法在不依赖伪标注关键点的条件下,直接利用可渲染的视觉反馈修正姿态与形状估计。

2025-11-05 17:42:33 794

原创 Science Robotics 重磅综述|学习型动力学模型全景盘点

导读在真实世界中,人类之所以能熟练地操作物体,是因为我们拥有一种“直觉物理”。我们能在心里预测:杯子被推后会滑多远,绳子被拉会怎么变形。这种预测力来自于长期经验中形成的“内在世界模型”。而对机器人而言,要具备同样的能力,必须学会——。然而在现实世界里,这些信息往往难以准确感知。。它不再依赖精确的方程,而是直接从传感器数据中学习“动作—结果”的映射。这种方法能够捕捉复杂、难建模的因素,甚至能在仿真精度不足的场景中实现更快的预测。今天小编就带各位读者一起系统回顾学习型动力学模型在机器人操作中的进展与未来。

2025-11-04 17:55:45 924

俞刚-物体检测的过去、现在和未来.pdf

物体检测是计算机视觉的基础环节,对于很多计算机视觉任务的落地和研究都有非常重要的意义。本次分享主要从物体检测的问题切入,讨论物体检测的发展历程,从传统视觉年代,到深度学习时代的变革,到未来的发展趋势。也会分析工业界的落地发展历程,从传统时代的人脸检测到通用的物体检测。

2020-09-07

一个半月吐血整理,各大厂500+求职者分享,1000+面试真题及经验收

真题题库、行业交流群已准备就绪! 大家三连后,评论区留言获取!

2022-09-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除