导读:
通往AGI道路的一步:FaGeL,它是一个由大型语言模型(LLMs)和智能织物技术赋能的具身智能体,它能够实现非侵入式的人机互动和自主任务生成。它将是打开无缝适应多样化人类需求和上下文的通用人工智能(AGI)驱动智能体的关键一步。
©️【深蓝AI】编译
论文标题:FaGeL: Fabric LLMs Agent empowered Embodied Intelligence Evolution with Autonomous Human-Machine Collaboration
论文作者:Jia Liu, Min Chen
论文地址:https://arxiv.org/pdf/2412.20297
01 背景简介
大型语言模型(LLMs)的进展为具身智能体提供了强大的推理能力,使其能够与环境进行动态交互,为实现 AGI 驱动的机器人技术带来了新的希望。
最近,利用 LLM 技术实现以机器人为中心的物理具身实体的代表性工作不断涌现。例如,经过大规模互联网数据训练的多模态大型语言模型(MLLMs)可以集成到端到端的机器人控制系统中,以实现语义推理和任务泛化能力。此外,LLM 已成功应用于零样本设置下的机器人控制,尤其是在解决具有挑战性的规划任务时。然而,这些开创性的探索尚未充分发挥 LLM 的潜力。大多数关于具身智能体的研究主要集中在理解和执行物理世界中指定任务空间内的任务。因此,在开放物理环境中的任务学习和泛化中,LLM 技术的利用显著不足。
与以机器人为中心的具身智能相比,已有一些尝试将 LLM 作为自主具身智能体在模拟环境中的控制中心。这些智能体表现出与队友在游戏中主动协作、随着时间推移提高任务完成率,以及在互动沙盒环境中生成社会行为。然而,这种虚拟自主智能体的演化通常依赖于虚拟环境提供的大量低级数据,这在虚拟任务和现实任务之间造成了显著差距。因此,将它们应用于物理世界仍需进一步探索和实验。
因此,现有工作在实现 AGI 的未来愿景方面存在局限性,即具身智能体理解复杂意图、分解任务以及特别是在自然物理环境中自主探索和实现智能演化的能力。为了满足对具身智能未来演化的更高需求,构建能够从感知数据中理解环境、自主探索并基于人类反馈进行迭代优化的智能代理是一个长期且未解决的挑战,主要面临以下挑战:
非侵入性人机交互:从硬件角度看,这要求具身智能体在不显著干扰用户日常生活的情况下感知用户状态、环境参数和具身交互。通过与系统的自然互动,减轻用户在操作需求上的负担,从而提高用户体验的质量和互动效率。
基于隐性反馈的 AI 对齐:在算法方面,传统的 AI 对齐反馈机制依赖于显式评分或偏好值,例如来自人类反馈的强化学习(RLHF)、直接偏好优化(DPO)、对齐语言模型与人类反馈的排名响应(RRHF)等。这些显式反馈形式劳动强度大,尤其是在与计算机的交互中,频繁的评估会干扰交互的流畅性。因此,利用上下文状态或用户活动数据等隐性反馈来实现 AI 对齐是一项具有挑战性的任务。
可解释的 AI 训练:考虑到系统的可靠性,希望 AI 的内部工作以可观察的方式呈现。为了确保可信性和透明性,AI 的决策过程应该是可解释的,使开发者和用户能够理解如何得出结论。这增强了调试能力,并通过使系统的行为更加可预测和可追溯来提高用户的信任。此外,可解释性有助于通过基于观察到的行为和结果提供可操作的反馈,持续改进 AI 模型。
为了解决这些挑战,本文引入了跨学科的织物计算技术,将材料科学与 AI 前沿相结合。智能织物技术赋予传统纺织品智能属性,为具身智能体提供了新的潜力,特别是在与人类长期非侵入性共存方面。基于智能织物技术,作者构建一个具身智能体,能够保证人类的高舒适度,自主探索,以人为中心并自然互动,同时使智能体的价值与人类的价值对齐。
智能织物技术将多功能传感器(如声音、光线、力、热、磁)集成到纺织品中(如服装、沙发、地毯),使得智能体能够与人类无缝互动,实时监测行为和环境变化,从而提高感知、适应性和学习能力。通过利用现实世界中的大规模多模态数据进行直接交互和反馈机制,这种方法有助于动态优化智能体的行为,确保其价值与人类的需求和意图保持一致。
▲图1| FaGeL 概览©️【深蓝AI】编译
结合智能织物技术,本文提出了一种名为 FaGeL(由具身智能与 LLM 赋能的智能织物代理)的具身智能体。FaGeL 可以探索用户的需求空间,自主生成协作任务,并通过捕捉日常生活中的细微行为来调整其价值,
而无需显式指导,如图 1 所示。它利用智能织物获取多模态数据,例如体温、心率和呼吸,这些数据可以嵌入到沙发、服装和地毯等物理实体中,以尽量减少对用户生活的干扰。FaGeL 具有以下特点:
(1)探索人类需求空间;
(2)从人机协作的角度确定其定位和价值;
(3)自主生