Nature子刊｜TUM提出机器人终身学习框架LEGION：零遗忘，成功率高达84%！-CSDN博客

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：深蓝AI

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球(点开有惊喜)，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

人类具有终身学习的显著能力，能够持续获取知识并适应新的任务场景。这种终身学习的能力被认为是实现通用智能的关键机制。尽管现有人工智能技术在图像生成、文章写作和自动驾驶等领域取得了显著成就，但它们主要专注于特定领域的任务，普遍缺乏终身学习能力。

近日，来自慕尼黑工业大学、南京大学、中山大学和清华大学的研究团队提出了一种名为基于贝叶斯非参数模型的语言嵌入生成增量离线策略强化学习框架（LEGION）的机器人终身强化学习框架，该框架通过结合贝叶斯非参数模型和语言嵌入，实现了机器人在终身学习中的知识积累与重利用，并在

《Nature Machine Intelligence》 上发表。

论文题目：Preserving and combining knowledge in robotic lifelong reinforcement learning

论文作者：Yuan Meng, Zhenshan Bing, Xiangtong Yao, Kejia Chen, Kai Huang, Yang Gao, Fuchun Sun & Alois Knoll

论文地址：https://www.nature.com/articles/s42256-025-00983-2

LEGION框架的核心创新在于基于狄利克雷过程混合模型（DPMM）的知识空间设计，以及通过语言嵌入增强语义理解的方法。该框架突破了传统强化学习的限制，使机器人能够从一次性输入的任务流中持续积累知识，并通过知识组合和重用解决复杂任务。

LEGION框架主要分为两个部分，分别是上游任务推断与知识保存模块与下游策略学习模块，具体如图1所示。

▲图1｜ LEGION的训练与部署框架：a. 训练框架，通过接收语言语义信息和环境观察作为输入，以进行策略决策并输出动作模式。b. 部署框架，在真实世界的演示中，智能体的参数保持冻结状态，智能体从真实世界的硬件接收输入信号，并输出相应的动作信号。

上游模块首先通过预训练语言嵌入模块生成关于任务描述的语言嵌入，接着通过任务编码器将状态观测和语言嵌入结合，生成任务的潜在表示，接着使用DPMM对这些潜在表示进行聚类和存储，确保知识在连续任务流中的保存。最后利用生成模块基于任务的潜在表示输出重构的语言嵌入以及对下一状态的预测。

在上游模块中，本文创造性地采用了DPMM这一类贝叶斯非参数模型，使得任务的潜在表示不需要预先设定任务的数量，同时可以不断生成新的聚类来存储新的潜在表示。这种无数量限制的任务空间保证了终身强化学习的可能。如图2所示，不同的任务通过DPMM可以生成不同的潜在表示。

▲图2｜不同任务在DPMM中的不同潜在表示

下游模块的核心是软演员-评论家（SAC）算法，这是一种基于最大熵的强化学习算法，能够在连续动作空间中学习高效的策略。演员（Actor）负责生成机械臂的控制动作，评论家（Critic）负责评价Actor的动作优劣。SAC通过结合Actor和Critic，实现策略优化和价值函数的精确估计。

研究团队使用KUKA iiwa机器人作为实体，配合RealSense摄像头获取视觉信息，成功地完成了由多个连续子任务组成的"清理桌子"这一长期任务，如图3所示。机器人能够通过重组从一次性输入任务流中获得的知识完成这一任务，展示了其在面对多样化和具有挑战性的任务分布时的有效泛化能力。

▲图3｜使用LEGION完成一系列任务

在训练阶段，机器人从一系列操作任务中逐一学习，每个任务训练100万步。值得注意的是，研究者们采用了从简单到复杂的任务排序策略，让机器人先学习基础任务，作为掌握后续任务更复杂动作任务的中继。

为评估LEGION框架的终身学习能力，研究者们实现了十个不同的机器人操作任务来构建任务流："抓取→推动→拾取放置→开门→打开水龙头→关闭抽屉→按下按钮→取下插销→打开窗户→关闭窗户"。

在实际测试中，LEGION框架表现出色，平均成功率逐渐增加，最终达到0.84。更重要的是，框架的整体平均遗忘分数为0.0，展示了其强大的知识保存能力。此外，还有一些任务会出现负遗忘分数，这表明后续学习过程提高了先前学习任务的表现。例如，在"开门"任务上，机器人初始成功率为0.4，但在学习"打开水龙头"后，"开门"任务的成功率提高到0.8。整体测试成绩如表1所示。

▲表1｜按任务难度由易到难排序的各任务成功率统计

此外，由于使用了DPMM，LEGION框架可以提供任务执行顺序的灵活性，允许机器人通过知识的组合和重新应用，以任何顺序完成整个任务。研究人员通过随机重新排序子任务进行了多次的演示，突显了所提出框架的泛化性和灵活性。

LEGION框架的提出标志着机器人终身学习领域的一次重大突破。通过将DPMM与语言嵌入相结合，LEGION不仅解决了传统强化学习中的“灾难性遗忘”问题，还实现了机器人在连续任务流中知识的持续积累和高效重用。其创新的知识空间设计使机器人能够动态推断、保存和组合任务知识，而语言嵌入的引入则显著增强了机器人对任务语义的理解能力，使其在面对复杂、长时程任务时表现出更强的泛化能力和灵活性。

LEGION框架通过结合贝叶斯非参数理论和自然语言处理，实现了机器人在终身学习中的知识积累与重用，为通用人工智能的发展提供了新方向。其创新设计不仅解决了传统强化学习的“灾难性遗忘”问题，还展示了机器人在复杂任务中的强大泛化能力。LEGION在真实世界中的应用验证了其可行性，为工业自动化和服务机器人等领域带来了新机遇。作为机器人终身学习的里程碑，LEGION推动了人工智能向更高层次迈进，激励研究者探索知识积累与重用的新方法。

Ref：

Preserving and combining knowledge in robotic lifelong reinforcement learning

编

译｜麻哈情节

审核｜apr

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理：cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球(点开有惊喜)，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。