Nature子刊|机器人终身学习框架LEGION实现零遗忘,成功率高达84%!

人类具有终身学习的显著能力,能够持续获取知识并适应新的任务场景。这种终身学习的能力被认为是实现通用智能的关键机制。尽管现有人工智能技术在图像生成、文章写作和自动驾驶等领域取得了显著成就,但它们主要专注于特定领域的任务,普遍缺乏终身学习能力。

©️【深蓝AI】编译

近日,来自慕尼黑工业大学、南京大学、中山大学和清华大学的研究团队提出了一种名为基于贝叶斯非参数模型的语言嵌入生成增量离线策略强化学习框架(LEGION)的机器人终身强化学习框架,该框架通过结合贝叶斯非参数模型和语言嵌入,实现了机器人在终身学习中的知识积累与重利用,并在《Nature Machine Intelligence》上发表。

论文题目:Preserving and combining knowledge in robotic lifelong reinforcement learning

论文作者:Yuan Meng, Zhenshan Bing, Xiangtong Yao, Kejia Chen, Kai Huang, Yang Gao, Fuchun Sun & Alois Knoll

论文地址:https://www.nature.com/articles/s42256-025-00983-2

一、算法框架

LEGION框架的核心创新在于基于狄利克雷过程混合模型(DPMM)的知识空间设计,以及通过语言嵌入增强语义理解的方法。该框架突破了传统强化学习的限制,使机器人能够从一次性输入的任务流中持续积累知识,并通过知识组合和重用解决复杂任务。

LEGION框架主要分为两个部分,分别是上游任务推断与知识保存模块与下游策略学习模块,具体如图1所示。

▲图1| LEGION的训练与部署框架:a. 训练框架,通过接收语言语义信息和环境观察作为输入,以进行策略决策并输出动作模式。b. 部署框架,在真实世界的演示中,智能体的参数保持冻结状态,智能体从真实世界的硬件接收输入信号,并输出相应的动作信号。©️【深蓝AI】编译

上游模块首先通过预训练语言嵌入模块生成关于任务描述的语言嵌入,接着通过任务编码器将状态观测和语言嵌入结合,生成任务的潜在表示,接着使用DPMM对这些潜在表示进行聚类和存储,确保知识在连续任务流中的保存。最后利用生成模块基于任务的潜在表示输出重构的语言嵌入以及对下一状态的预测。

在上游模块中,本文创造性地采用了DPMM这一类贝叶斯非参数模型,使得任务的潜在表示不需要预先设定任务的数量,同时可以不断生成新的聚类来存储新的潜在表示。这种无数量限制的任务空间保证了终身强化学习的可能。如图2所示,不同的任务通过DPMM可以生成不同的潜在表示。

▲图2| 不同任务在DPMM中的不同潜在表示©️【深蓝AI】编译

下游模块的核心是软演员-评论家(SAC)算法,这是一种基于最大熵的强化学习算法,能够在连续动作空间中学习高效的策略。演员(Actor)负责生成机械臂的控制动作,评论家(Critic)负责评价Actor的动作优劣。SAC通过结合Actor和Critic,实现策略优化和价值函数的精确估计。

二、实验结果

研究团队使用KUKA iiwa机器人作为实体,配合RealSense摄像头获取视觉信息,成功地完成了由多个连续子任务组成的"清理桌子"这一长期任务,如图3所示。机器人能够通过重组从一次性输入任务流中获得的知识完成这一任务,展示了其在面对多样化和具有挑战性的任务分布时的有效泛化能力。

▲图3| 使用LEGION完成一系列任务 ©️【深蓝AI】编译

在训练阶段,机器人从一系列操作任务中逐一学习,每个任务训练100万步。值得注意的是,研究者们采用了从简单到复杂的任务排序策略,让机器人先学习基础任务,作为掌握后续任务更复杂动作任务的中继。

为评估LEGION框架的终身学习能力,研究者们实现了十个不同的机器人操作任务来构建任务流:"抓取→推动→拾取放置→开门→打开水龙头→关闭抽屉→按下按钮→取下插销→打开窗户→关闭窗户"。

在实际测试中,LEGION框架表现出色,平均成功率逐渐增加,最终达到0.84。更重要的是,框架的整体平均遗忘分数为0.0,展示了其强大的知识保存能力。此外,还有一些任务会出现负遗忘分数,这表明后续学习过程提高了先前学习任务的表现。例如,在"开门"任务上,机器人初始成功率为0.4,但在学习"打开水龙头"后,"开门"任务的成功率提高到0.8。整体测试成绩如表1所示。

▲表1| 按任务难度由易到难排序的各任务成功率统计 ©️【深蓝AI】编译

此外,由于使用了DPMM,LEGION框架可以提供任务执行顺序的灵活性,允许机器人通过知识的组合和重新应用,以任何顺序完成整个任务。研究人员通过随机重新排序子任务进行了多次的演示,突显了所提出框架的泛化性和灵活性。

三、总结

LEGION框架的提出标志着机器人终身学习领域的一次重大突破。通过将DPMM与语言嵌入相结合,LEGION不仅解决了传统强化学习中的“灾难性遗忘”问题,还实现了机器人在连续任务流中知识的持续积累和高效重用。其创新的知识空间设计使机器人能够动态推断、保存和组合任务知识,而语言嵌入的引入则显著增强了机器人对任务语义的理解能力,使其在面对复杂、长时程任务时表现出更强的泛化能力和灵活性。

LEGION框架通过结合贝叶斯非参数理论和自然语言处理,实现了机器人在终身学习中的知识积累与重用,为通用人工智能的发展提供了新方向。其创新设计不仅解决了传统强化学习的“灾难性遗忘”问题,还展示了机器人在复杂任务中的强大泛化能力。LEGION在真实世界中的应用验证了其可行性,为工业自动化和服务机器人等领域带来了新机遇。作为机器人终身学习的里程碑,LEGION推动了人工智能向更高层次迈进,激励研究者探索知识积累与重用的新方法。

Ref:Preserving and combining knowledge in robotic lifelong reinforcement learning

编译|麻哈情节

审核|apr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值