在AI技术快速发展中,具身智能体在复杂动态环境中的长期发展和适应性成为了研究的重点。具身智能体是那些能够通过感知和动作与物理世界交互的系统,它们不仅需要执行特定的任务,还需要在动态且不可预测的环境中不断适应和学习。这种能力对于未来的智能系统至关重要,因为它们需要在各种应用场景中展现出灵活性和自主性。
具身智能体在独立学习上已经取得了显著进展,它们能够在开放环境中进行自我探索和技能习得。例如,在《Minecraft》等虚拟环境中,智能体展示了在没有明确指导的情况下,通过尝试和错误来学习和适应新任务的能力。然而,这种孤立的学习模式在面临复杂任务时往往表现欠佳,尤其是在需要多智能体协作的情境中。
11 月 25 日,arXiv 发表的论文《MINDFORGE: EMPOWERING EMBODIED AGENTS WITH THEORY OF MIND FOR LIFELONG COLLABORATIVE LEARNING》文提出了MINDFORGE框架,通过引入心智理论(Theory of Mind, ToM)和协作学习,使具身智能体能够在与他人的互动中不断改进自身能力。心智理论的引入使智能体能够推理自身及他人的心理状态,从而在协作任务中做出更合理和有效的决策。通过这种方式,MINDFORGE不仅提高了智能体的任务完成率,还增强了其在新任务和未知环境中的适应能力。
MINDFORGE研究团队由Delft理工大学的Mircea Lica、Ojas Shirekar、Baptiste Colle和Chirag Raman组成。他们在人工智能、多智能体系统和认知科学领域拥有深厚的背景和丰富的研究经验。团队致力于通过融合多学科的前沿技术,推动具身智能体在终身学习和协作能力方面的突破。此次提出的MINDFORGE框架正是他们在这方面努力的结晶,通过结合心智理论和自然语言处理,探索了智能体在复杂环境中的新可能性。
相关工作
心智理论在具身智能体中的应用,已经成为人工智能和认知科学领域的一个重要研究方向。心智理论(Theory of Mind, ToM)是指个体能够理解和推测他人心理状态(如信念、愿望、意图等)的能力。这一概念在人类发展心理学中得到了广泛研究,特别是在儿童如何理解他人的思想和感受方面。
在具身智能体中,早期的心智理论应用主要集中在深度学习、强化学习和概率技术等方法上。例如,Rabinowitz等人(2018)提出了使用深度学习方法在二维网格世界中模拟心智理论,而Chuang等人(2020)则探索了类似的深度学习技术,试图让智能体在简单的环境中推断他人的意图。然而,这些方法在面对更复杂的环境时,往往难以泛化(Shu et al., 2021)。因此,尽管这些早期研究为机器心智理论奠定了基础,但它们在实际应用中的局限性也相当明显。
随着大语言模型(LLMs)的发展,研究人员开始探索这些模型在心智理论中的应用。Kosinski(2023)和Bubeck等人(2023)等研究表明,虽然LLMs在某些情境下可以模拟人类心智,但总体上仍存在局限性。然而,LLMs的复杂性和知识广度,使其在克服传统方法中的许多问题上表现出潜力。例如,Wilf等人(2023)和Zhou等人(2023)提出了使用提示来推断智能体心理状态的基于LLM的心智理论框架。尽管这些模型尚未完全实现人类级别的心智理论能力,但它们在模拟复杂认知过程中的应用前景令人期待。
基于LLM的多智能体系统的研究也逐渐兴起,这些系统中的语言交流是一个核心挑战。传统的单智能体系统在执行问答、文本生成、代码合成和具身环境中的复杂推理等任务时,表现出了巨大的成功(Wang et al., 2023a; Ahn et al., 2022; Lin et al., 2023)。随着研究的深入,开发基于LLM的多智能体系统成为一个新的热点。这些系统需要智能体之间进行语言交流,以实现协作任务。例如,Zhang等人(2023)提出了一个模块化多智能体框架,整合了记忆、感知和执行功能;Zhang等人(2024)则介绍了处理部分自我中心视角环境中协作的多智能体合作框架COMBO。然而,如何确保智能体之间的协调和一致性,特别是在具身环境中,仍然是一个重大挑战。
在这些背景下,Voyager智能体框架和BigToM因果模板的提出,为具身智能体的心智理论应用提供了新的思路。Voyager智能体框架由三个主要组件组成:自动课程生成器、技能库和迭代提示机制。自动课程生成器提出逐渐复杂的任务,推动智能体持续学习;技能库存储和检索已学行为,促进知识积累和转移;迭代提示机制根据环境反馈生成和改进可执行代码,允许智能体自适应行为(Wang et al., 2023a)。这一系统展示了在复杂动态环境中实现终身学习和适应的潜力,是具身智能体领域的一个重要基准。
图1:MINDFORGE和Voyager的认知架构。旅行者号的架构在我们的认知架构范围内进行了重新构建。
BigToM因果模板提供了一个结构化框架,将心智理论情景表示为因果图。这一模板包括关键组件如上下文、愿望、感知、信念、因果事件和结果行动,通过这种因果结构表示心智理论情景,模板允许系统地操纵变量,如智能体对环境变化的感知、信念和行动。这种方法能够创建多样且受控良好的心智理论情景,捕捉智能体心理状态与其在社交情景中的行为之间复杂的因果关系。这一因果图表示法促进了对心智理论推理的更细致和系统的探索,允许检查各种推理模式,如前向信念、前向行动和后向信念推理在社交认知任务中的应用(Gandhi et al., 2024)。
方法
为了使MINDFORGE智能体能够通过协作社交互动进行学习,研究团队详细介绍了几个关键组件,这些组件包括显式心智理论表示、伙伴视角转换、交流媒介以及记忆子系统。
图2:MINDFORGE允许代理相互协作以解决给定的任务。
显式心智理论表示
MINDFORGE智能体的发展离不开对其自身心理状态的结构化表示。这种显式建模对于递归社会推理至关重要。具体来说,智能体不仅需要能够推理自己的信念、目标、感知及其可能导致的行动,还需要为其他智能体形成类似的心理模型。借鉴发展心理学的发现,人类儿童首先发展对自己思想、感受和目标的意识,然后才能推断他人的心理状态。神经科学研究也支持这一点,发现了自我认知与他人心理化之间的不同神经机制。
在MINDFORGE框架中,智能体采用基于信念-欲望-意图(BDI)框架的因果世界表示。信念对应于智能体从感知和与其他智能体的互动中推断出的当前世界理解。欲望与智能体的目标对齐,这些目标既来自自动课程生成器,也来自协作互动。意图则表现为具体的行动计划,特别是实现智能体所需任务的生成代码。由于意图与其程序实现之间的一一对应关系,MINDFORGE将“意图”和“行动”视为同义词。通过利用BigToM因果模板,MINDFORGE智能体的信念、欲望和意图得以有效操作。
此外,MINDFORGE智能体的信念分为四个关键类别:任务、互动、感知和伙伴视角。任务相关的信念源于智能体对如何完成给定目标的自我反思。互动相关的信念来自任务执行过程中收到的聊天信息。感知相关的信念由通过Minecraft API的直接感知输入和伙伴反馈形成。这些信念共同影响智能体的行动。
伙伴视角转换
在为智能体提供表示信念、欲望和意图的能力后,MINDFORGE框架专注于通过视角转换实现协作推理。每个MINDFORGE智能体通过在其信念中维护伙伴状态的心理模型来实现这一目标,这些状态通过每个伙伴的完整BigTom因果图表示。在决定行动或交流回应时,底层LLM被提示使用关于伙伴状态的这些信念。提示内容包括提出问题以获取对其他智能体世界模型的全面了解,并基于收到的信息创建其他智能体世界模型的心理模型。这样,智能体能够通过反复问答,逐渐形成对伙伴世界模型的全面理解,并在必要时提供有用的建议。
通过为每个伙伴维持和不断更新这些信念,MINDFORGE智能体具备了文化学习框架中最重要的能力之一:推理伙伴视角。例如,如果专家智能体识别出新手智能体缺乏制作特定物品的知识,它可以优先分享该信息。类似地,新手智能体可以利用其对专家知识的模型,提出更有针对性和相关的问题。
交流媒介
为了利用彼此的心理模型表示并有效协作,智能体需要能够相互交流。MINDFORGE通过自然语言交流来实现沟通,将其通信系统与Minecraft的原生游戏内聊天功能集成。为了便于智能体在环境中进行其他行动的同时互动,MINDFORGE扩展了原始Voyager框架,加入了异步消息系统。这个系统使智能体能够交换文本信息,并将协作者的反馈直接整合到其信念系统中。具体地,MINDFORGE利用Mineflayer API从Minecraft环境中提取和处理聊天数据。通过利用游戏现有的聊天系统,该框架确保协作互动以适当的上下文方式进行,紧密模仿在Minecraft内的人人交流。
为处理交流,MINDFORGE在智能体内引入了一个专门的交互LLM,负责将消息综合并解释为结构化的BigToM BDI模板。这个填充的模板构成了智能体的伙伴信念。交互LLM不直接影响智能体的其他部分。
记忆子系统
MINDFORGE智能体的记忆包括三种子系统,借鉴了对人类记忆的研究:情景记忆、语义记忆和程序性记忆。情景记忆处理智能体过去尝试任务和与其他智能体的社交互动的相关信息。人类通常会总结社交互动中的信息,但在某些总结可信度低的情况下,会优先访问具体的情节记忆。此外,研究还表明,大脑中有更新这些总结的过程。受补充学习系统理论的启发,Larimar增强了LLM的分布式情景记忆模块,使其能够进行动态知识更新而无需基于梯度的学习。对于MINDFORGE智能体,情景记忆在执行任务和与伙伴互动时起到类似的作用;它存储在交流轮次中透露的有关伙伴的细节,可以在未来的交流中利用。
语义记忆包含个体对世界的知识,信息来自经验的抽象,一般不与具体经验相关。对MINDFORGE智能体来说,语义记忆存储与任务和环境相关的信息,如开采泥土的先决条件。这种信息不一定与某一具体情节相关,而是一般有用的世界知识,可以从情景记忆中提取。最后,程序性记忆存储智能体学习的技能,类似于原始Voyager框架中的技能库。这些技能是可重用的代码片段,智能体可以用它们来解决问题,从而在避免重新学习先前成功使用的元素的同时承担更复杂的任务。情景和语义记忆影响智能体的信念,而程序性记忆提供指导智能体下一步行动的例程。
通过整合显式心智理论表示、伙伴视角转换、交流媒介和记忆子系统,MINDFORGE框架显著提高了具身智能体在协作任务中的表现和适应性,为实现更加智能和高效的人工智能系统铺平了道路。
实验
实验部分是验证MINDFORGE框架有效性的重要环节。研究团队通过一系列精心设计的实验,评估了该框架在实际应用中的表现。
图3:每个MINDFORGE代理都维护着一组内部信念,可以根据需要利用这些信念。为了实现ToM能力,代理还对其对手的信念、行为和欲望保持信念。
为了验证MINDFORGE框架的有效性,研究团队在Minecraft模拟环境中进行了实验。这个模拟环境基于MineDojo,并利用Mineflayer API来控制智能体的运动。实验的主要性能评估指标是任务完成率,这一指标直接反映了智能体在执行具体任务时的表现。为了确保结果的可靠性,研究团队进行了24次独立试验,每次试验代表智能体尝试完成一个特定任务。此外,为了与Voyager进行公平比较,实验保留了原始提示结构和智能体的整体工作流程。
首先,研究团队用开源权重LLM替换了Voyager中的GPT-4,选择了Mistral-7B和Mixtral-8x7B作为开源权重LLM。实验重点是Minecraft技术树中的两个简单任务:收集一块泥土和收集一块木材。结果显示,虽然GPT-4在这些任务上表现完美,开源权重LLM在最简单任务上表现出显著困难。这一结果验证了Voyager论文中的观察:GPT-4在代码生成方面显著优于GPT-3.5,而开源权重Voyager存在两个主要失败案例:错误信念和错误代码生成。
图4:每个代理都维护一组内部信念,可以根据需要利用这些信念。为了实现ToM能力,代理还对其协作对手的信念、行为和愿望保持信念。
引入协作
在确认标准模仿学习方法(如PEFT)无法提高智能体能力后,研究团队引入了MINDFORGE框架,通过教学学习和多智能体协作来改善智能体性能。在教学学习设置中,专家智能体通过交流和视角转换教导较弱的智能体。实验结果显示,与人类专家协作的任务完成率显著提高。这一结果展示了框架与人类和LLM智能体互动的灵活性。
图5:弱代理的任务相关信念在通过通信渠道被强代理纠正后的演变。弱代理最初认为它正在挖掘“草块”,而任务是挖掘“污垢块”,需要工具来完成。然后,强代理通过声明它不需要工具来挖掘“污垢”来纠正这一信念,纠正弱代理与任务相关的信念。
此外,实验还评估了使用GPT-4作为专家智能体与开源权重LLM驱动的MINDFORGE智能体之间的协作效果。专家智能体通过自然语言交流理解其他智能体的失败案例,并利用视角转换准确建模较弱智能体的理解,从而识别并修正失败案例。结果显示,视角转换和协作显著增强了性能,提升了泥土和木材收集任务的完成率。
图6:随着代理被允许进行更多轮的通信,任务完成率有所提高。
在没有专家智能体的协作学习设置中,结果显示两个具有相似基础能力的智能体之间的协作表现较差,甚至不如无互动MINDFORGE智能体。性能下降主要来源于两个较弱智能体交流时复合的错误信念,导致错误路径的决策。
协作后的表现
图7:随着沟通轮次的增加,强代理的合作伙伴信念逐渐提高。
研究团队还评估了社交互动对智能体长期表现的影响。具体来说,在协作后场景中,MINDFORGE智能体根据先前协作经验中存储在语义记忆中的信念完成任务。此外,在解决新任务时,MINDFORGE智能体能够利用先前在相邻任务上的协作经验。这一结果展示了智能体通过互动将改进泛化到未见任务的能力,证明了MINDFORGE的持续学习能力。
表3展示了不同场景下MINDFORGE智能体的任务完成率,进一步验证了协作在分布内和分布外场景中均提高了智能体的性能。这一结果凸显了语义记忆在实现持续学习中的重要性。
通过这些实验,研究团队不仅验证了MINDFORGE框架在实际应用中的有效性,还展示了协作学习在提高智能体任务执行能力和适应性方面的重要作用。
讨论
MINDFORGE通过引入自然语言协作学习,展示了在具身智能体领域的显著优势。协作学习不仅使智能体能够共享信息和知识,还通过互动改进了其推理和决策能力。在多智能体系统中,自然语言作为交流媒介,使智能体能够有效沟通彼此的信念、目标和计划。通过这种方式,智能体可以更灵活地调整自身行动,以适应动态变化的环境和任务需求。
这一协作学习的优势在多个实验中得到了验证。实验结果显示,通过多轮互动,MINDFORGE智能体能够逐渐形成对任务和环境的深刻理解,从而显著提高任务完成率。例如,在与专家智能体合作完成的任务中,MINDFORGE智能体展示了高效的信息交换和协作能力,成功率大大超过了单智能体系统。这表明,通过协作学习,MINDFORGE不仅在特定任务上表现优异,还具备较强的知识迁移和适应能力。
视角转换的重要性
视角转换是实现协作学习的关键组件之一。通过视角转换,智能体能够理解和推理其他智能体的信念、欲望和意图,从而在互动过程中做出更合理和有效的决策。在MINDFORGE框架中,智能体通过多轮交流逐步完善对伙伴的心理模型,使得协作更加顺畅和高效。
研究表明,多轮沟通对视角转换和任务完成率具有显著影响。随着沟通回合数的增加,智能体对任务相关信息和伙伴状态的理解逐渐加深,从而能够更准确地调整自身行为以完成任务。实验数据支持这一点,显示出在更多沟通回合下,智能体的任务完成率显著提高。这一发现强调了在多智能体系统中,持续和高效的沟通对于视角转换的重要性,从而为实现复杂任务的协作提供了理论基础。
专家智能体的重要性
在协作学习中,专家智能体的角色至关重要。专家智能体通过自然语言交流和视角转换,能够有效指导较弱智能体,修正其错误信念并提供正确的信息和策略。实验结果显示,有专家智能体参与的协作任务成功率显著高于仅有同水平智能体之间的协作。这表明,专家智能体通过提供高质量的反馈和指导,能够显著提升协作学习的效果。
然而在没有专家智能体的情况下,协作学习的效果明显下降。实验数据显示,当两个具备相似基础能力的MINDFORGE智能体进行协作时,错误信念的相互传递和累积会导致任务完成率降低。这种“盲人摸象”式的协作不仅未能显著提升任务成功率,反而在某些情况下甚至不如单独学习。这一发现突显了在多智能体协作学习中,专家智能体的重要性和不可替代性。
通过深入讨论MINDFORGE的协作学习能力、视角转换的重要性以及专家智能体的关键角色,我们可以看出,MINDFORGE框架通过优化智能体之间的互动和信息交换,显著提升了任务执行能力和适应性。
限制
虽然MINDFORGE框架在多个实验中展示了显著的改进和优势,但仍存在一些限制需要进一步研究和解决。
沟通触发机制的不足
一个显著的局限在于智能体识别何时启动沟通的能力不足。当前的MINDFORGE智能体依赖预定义的沟通回合数进行交流,但在实际应用场景中,智能体需要具备自主判断何时与伙伴交流的能力。这种判断能力对于动态和不可预见的环境尤为重要。没有这类自主触发沟通的机制,智能体可能会错失重要的交流机会,导致任务失败或效率低下。未来的研究需要开发智能体能够自主识别何时需要进行沟通的算法,从而提升协作效率和整体任务完成率。
基于文本的表示的限制
另一个限制在于MINDFORGE智能体主要依赖于基于文本的表示进行交流和决策。这种表示方式虽然便于实现和分析,但在某些复杂情景中,可能无法全面捕捉智能体的行为和感知变化。例如,在涉及复杂环境交互或多模态信息处理的任务中,基于文本的表示可能不足以提供全面的上下文信息,导致智能体的决策能力受限。未来的研究可以探索多模态表示,包括视觉、语音和其他感官信息的集成,从而增强智能体在复杂任务中的表现能力。
实验范围的局限性
研究团队的实验设计只考虑了两个特定任务,未能全面分析MINDFORGE智能体的终身学习能力。虽然实验结果显示出MINDFORGE在这些任务中的显著改进,但这并不足以全面证明其在更广泛任务中的泛化能力。终身学习能力需要在多种任务和环境中进行验证,以确保智能体能够持续适应和改进。未来的研究需要扩展实验范围,涵盖更多类型的任务和环境,系统性地评估MINDFORGE框架在不同情景下的性能和适应性。此外,由于计算资源限制,未能在更大规模的任务集上进行实验,这也限制了对框架实际性能的全面评估。随着计算资源的增加,未来可以在更大规模和更复杂的任务集中测试MINDFORGE的能力,从而进一步验证和优化其框架设计。
综上所述,虽然MINDFORGE在协作学习和任务执行方面展示了显著的优势,但仍存在一些需要解决的局限。通过改进沟通触发机制、拓展表示方式和扩展实验范围,未来的研究有望进一步提升MINDFORGE的性能和应用前景。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。