python实现多智能体一致性_多智能体系统的智能-通信统一模型

f727c399da27cf98fabdd10e627535a6.png

Original Link: arxiv and gitblog

摘要

受经典香农模型和新近所提出具有“世界模型”的自监督(Self-Supervised)人工智能的启发,本文提出了一个描述单个智能体和任意多智能体系统的统一智能通信模型(Unified Intelligence Communication Model,简称UIC模型)。

首先,将环境建模为智能体之间的信息通道(Information Channel)。然后,UIC模型采用学习型智能体模型,统一了几种被广泛采用的智能体体系结构,如复杂自适应系统中提出的基于规则的智能体模型、描述人类智能的分层模型、基于世界模型的智能体模型等。对于具有多个动作感知模式(例如,显式信息传递和隐式信息传递)的多智能体系统(MAS),该模型还可以提供统一的研究方法。

本论文为一个系列,分为三部分内容独立的论文:第一部分对UIC模型进行概述,避免繁琐的数学分析和优化算法。第二部分将介绍由UIC模型驱动的定量分析案例研究,举例说明UIC模型在多智能体系统中的应用。具体地,将研究两个具有代表性的案例,即自然多智能体系统的分析,以及人工多智能体系统中通信、感知和行动协同设计。第三部分提出了由UIC模型所启发的进一步的想法和今后的研究方向,如单体智能和群体智能的统一、智能生成模式的可能解释和智能体-环境智能的对偶模型。

注:本文是预览版,扩展后的全版将在被审稿录用后发布。

关键词:信息论,多智能体系统,学习(人工智能),通信信道。

UIC模型简介——香农视角

该部分介绍了提出UIC模型的出发点以及关于UIC模型的基本图形描述,说明了智能体和环境之间的关系。这一部分有如下重要观点,后面将展开陈述:

  • 环境是智能体之间的广义通信信道。
  • 智能体作为广义的通信收发机,对环境进行编码,构建内部世界模型。而多模态行为和感知能力可以被抽象为多个发射机-接收机对。

二、香农模型简述

本节尝试应用香农模型来描述智能体和环境之间复杂的交互形式。在提出UIC模型之前,让我们首先回顾香农模型。在《通信的数学理论》这一著名论文中,香农提出了如下的信道模型,请注意,Weiners反馈目前不包括在内。

67e26d2e0a701f104cbc56873f0f52cf.png
图1 无反馈香农模型

三、复杂交互建模:香农通道模型是否足够?

本文不是第一个应用香农通道模型来建模和理解智能体与环境之间交互的。将香农通道模型运用于一般智能体的首要问题可能阻止了前人的尝试:香农通道模型是否足以描述智能体和环境之间的复杂多模态交互?作为智能体,不仅可以传输和接收一般意义的通信波形,而且可以改变物理环境,例如移动或者改变物质形态、将光能转换为其它形式的能量等。

在直接回答上述问题之前,作者可能会思考一个更基本的问题:信息、物质和能量之间的关系是什么?这个问题的答案可能有助于确定香农信道模型的应用范围。因此,UIC模型可以建立在以下叙述的基础上:

  • 信息是通过波传播的。波可以是电磁波、机械波、物质波和其他形式的波,它们由四个基本相互作用(强力、弱力、电磁力、引力)产生。
  • 环境可以被建模为可能的无限波的集合。每个波携带一定量的信息和能量。不同形式的波可以相互作用,交换能量和信息。
  • 任何形式的相互作用都可能被噪声或不确定性所污染。因此,可以通过波传输的最大信息量是通过香农信道容量来量化的。

基于以上叙述,我们可以得出以下结论:环境可以被建模为一组多模态信道以及其中所传输波的集合。

四、UIC模型中的智能体模型

以广泛认可的“智能体是环境中的开放系统”为指导,UIC模型结合了智能体最重要的假设。

  • UIC假设:与环境一样,智能体也是一组波的集合。
  • 智能体和环境之间的相互作用可以建模为波之间的相互作用。
  • 交互过程在交换能量和信息的同时,也引入了不确定性。

据此可以对智能领域的部分常用术语进行解读,感知和行动的本质都是环境和智能体中模态匹配的波进行能量和信息交换过程。

A .感知

感知可被视为对环境中的能量和信息的测量。

  • 基于UIC假设,感知过程建模为智能体从环境的波中摄取能量和信息。
  • 智能体的感知模块被建模为一组多模态信道接收机,其中每个接收机从波中提取信息,最优接收机提取的最大信息量由香农容量限定。

B.行动

智能体采取的行动可以在宏观和微观层面,以及在其他各种领域,例如空间、频率、能量等。

  • 基于UIC假设,任何行为都可以被建模为波相互作用的形式,行为被建模为从智能体到环境的能量和信息传递。
  • 智能体的动作模块被建模为一组多模态信道发射机,其中每个发射机用信息调制一组特定波,并且根据来自接收机的反馈优化发射机-接收机设计,如Wiener的反馈建模。

据此我们现在可以图形化地描述第一个UIC模型图,重点是使用香农模型解释智能体和环境之间的交互,如图2所示。在接下来的部分中,我们将分析智能体中信源和信宿的关系。

ae417147b98c621ba74db7a137066489.png
图2 智能体与环境的交互模型

五、智能体中信源和信宿关系建模问题

接续上节提出的智能体与环境的交互模型,本节主要关注图2中信源和信宿在智能体内部的联系。这一部分主要观点如下。

  • 按照通用的学习型智能体模型,其内部存在信源和信宿之间的信息通道(信道),该模型一般包括执行组件、学习组件、评价组件和问题生成组件。
  • 本节回顾不同的智能体模型,重点介绍学习型智能体模型,并针对强人工智能的智能体需求,构想了统一、完整和可操作的设计。
  • 与上节所提出的智能体与环境交互模型一起,可以形成完整的UIC模型。

如果我们坚持认为香农通信模型只存在智能体的外部环境,那信源和信宿在智能体内部不存在信息通道。然而,为了允许智能体从外部世界接收信息、处理信息以及通过传输信息来改变世界,智能体内部从信源到信宿的信道是必须的。因此,我们试图回答如下问题:智能体如何处理其内部的信息?本文不是第一个回答本问题的尝试,所以让我们先回顾一下前人关于智能体内部模型的重要工作。

六、智能体的内部模型综述

在[2]的第2.4节中给出了主要的五类智能体模型的概述。除了最简单的智能体模型外,其余的智能体模型包括内部世界模型。

A. 无学习型智能体模型

无学习的智能体可以被建模如下:

  • 简单反射模型:智能体功能以条件-行动规则为基础,如果符合某些IF-THEN规则的条件,即执行对应规则的行动。因此,它往往在一个完全可观测的世界中工作。
  • 基于模型的反射智能体模型:引入一个内部世界模型来维护某种结构,用于描述观察不到的世界部分。
  • 基于模型和目标的智能体模型:引入目标信息来描述需要的场景,并允许智能体在多种可能性中选择,选择一种可以达到目标状态的可能性。在复杂适应系统中,Holland提出智能体中存在多个并发的、微观的、具有简单反射模型的智能体,并允许智能体选择动作序列[3]。
  • 基于模型和效用的智能体模型:引入效用函数来度量从目标状态和非目标状态的跨度。

B. 学习型智能体模型

上述智能体模型是静态的,因为它们没有解释智能体如何学习和进化。因此,学习型智能体模型引入四个组件:

  • 执行组件(Performance Element):用于选择外部动作,等价于静态智能体模型,该模型从世界感知并决定外部动作。
  • 学习组件(Learning Element):更新执行组件并从执行组件获取知识。
  • 评价组件(Critic):指导智能体如何行动,以及如何修改执行组件以获得更高收益。
  • 问题生成组件(Problem Generator):指导智能体探索新问题,获取新信息和经验。

abfa25562af451ef64e175ee69960cb9.png
图3 学习型智能体模型 [2]

七、基于内部世界模型的学习型智能体模型的重新思考

虽然[2]中没有明确指出,但是学习型智能体模型在其执行组件中包括世界模型,而学习组件可用于更新世界模型。学习型智能体的具体设计问题可以进一步分解如下:

  • 执行组件设计:执行组件内部如何设计?世界模型是什么形态?
  • 学习组件与评价组件:如何在一个复杂的动态世界中,根据评价组件提供的反馈提炼知识和提高性能?此外,如何设计世界模型的更新机制?
  • 问题生成组件设计:在一个不断变化的世界,如何在短期和长期收益之间找到折衷?

以上三个问题的答案可能催生强人工智能。因此,这些问题非常有吸引力,因此前人已经提出的许多开创性的想法,虽然距离问题解决还有距离,但可以启发我们的设计。

A. 复杂适应系统中的智能体模型

Holland H. John教授是遗传算法的发明者和复杂适应系统理论的先驱。在他1995年所撰写的著作[3]中提出以下工作:

  • 执行组件设计:Holland提出了执行系统的设计,从传感器接受输入,并输出到执行器,而执行组件是基于IF-THEN规则的、若干并发的、交互式的微智能体集合。
  • 学习组件与评价组件设计:Holland提出了信用分派机制,允许多个微智能体相互竞争。具有较高收益的微智能体被给予较高的信用值,从而提高智能体对环境的适应性。提出了基于遗传算法的规则发现机制,支持智能体对恒新环境的适应能力。
  • 问题生成组件设计:未明确设计。

B. 具备常识思维的智能体模型

在[5]中,Marvin Minsky教授提出假设:将大脑模型化为一组资源(resource),这些资源可能被不同情绪状态激活。精神活动可以分解为六个层次:本能反应、后天反应、慎思、反思、自我反思和意识。高层次精神活动以低层次精神活动为基础,而最底层的本能反应由“IF-DO”规则驱动的。具体来说,我们可以将Minsky的思想重新组织如下:

  • 执行组件设计:本能反应建模为IF-DO规则,与Holland采用的IF-THEN规则等效。
  • 学习组件与评价组件设计:高层次的行为建立在本能的反应之上。Minsky强调了IF-THEN规则的局限性,因为直接使用IF-THEN规则描述复杂世界是不可行的,因此需要对更高层次抽象进行表示、评价和操作。值得注意的是,Holland在遵循相同的智能体模型规则之后也进行了深入研究,引入了动态有限生成系统(dynamic finitely generated systems)的概念,用于对智能体之间的复杂交互进行建模[3]。
  • 问题生成组件设计:慎思及其以上层次的精神活动会对反应式行为进行评价,促使智能体探索未知环境,更新世界模型并发现新的规则。

C. 自监督学习型智能体模型

最近,Yann Lecun教授提出了一个基于深层结构和世界模型的自监督学习型智能体模型[5],采用模型驱动的深度强化学习将预测和规划相结合,并支持推理。具体而言,Lecun考虑以下设计:

  • 执行组件设计:需要一个世界模型,积累关于世界如何工作的背景知识,可能包括常识。通过非线性变换,深度人工神经网络可用于建模复杂的相互作用。
  • 学习组件与批评构件设计:提出隐变量前向模型(Latent-variable forward models),用于规划和学习策略,但它还未达到Lecun所构思自监督学习型智能体的要求。
  • 问题生成组件设计:暂未直接提及。

dbd42f20e02d9048582aeaa439294f10.png
图4 自监督学习型智能体模型 [5]

八、学习型智能体模型的统一

Holland、Minsky和Lecun分别从不同角度切入,对学习型智能体进行建模,目的都是设计能支持强人工智能的智能体架构。本文综合比较三个模型,在执行组件、学习组件和评价组件设计上能够达成共识:

  • 执行组件设计:由简单的反应规则描述的微智能体的集合。
  • 学习组件与评价组件设计:一组行动模块,用于建立、操纵和评估微观智能体行为的一种更高级(可能是非线性的)表征。

然而,对于问题发生器的设计,前人或是没有具体设计(如Holland和Lecun),或者所设计的暂不具备可操作性(如Minsky)。本文对问题生成组件的设计难点如下:

  • 动机表征的不完备性:即使智能体具有非线性组件,能够表征非常复杂的交互,在时-空资源受限条件下,其动机的表征依然可能是非完整的。例如,人的长期目标为何会导致暴饮暴食、吸烟、熬夜等对长期目标产生负面影响的复杂动机?Minsky启发的一种可能的解释是,智能体可能在环境中采用次优行为——在有限时空资源下的局部最优。
  • 世界模型中的试错需求:虽然智能体无法找到最优动作,但是智能体可能提出一组次优候选动作,其中集合的大小受到可用资源的限制。在采取世界中的先前行动之后,可以在已经更新的世界模型中测试这些候选行动。

基于以上的认识,我们可以为强人工智能的问题产生器提出一种可能的可操作方法:

  • 问题生成组件设计:设计一组构件,支持不完备的动机表征和映射,支持动作-奖励之间的复杂交互的评估,支持候选动作集生成,并支持在执行组件的世界模型里触发相应动作和多次试错。

现在,我们用图5总结UIC模型,其中接收机用于传感器感知建模,发射机用于效应器动作建模,智能体内部包含了执行组件、学习组件、评价组件和问题生成组件。请注意,虽然在下图中没有展开学习型智能体模型不同组件,但本文已经对每个组件进行了分析,提出给了可操作的设计原则。这些设计原则和细节将在后续章节中,通过更详细的阐述、案例分析研究来展示。

8d1de13c6204ffb1ad0b9fc726445025.png
图5 针对学习型智能体的具有内部模型的UIC模型

九、结论

本文首先回顾了用于通信的香农模型,提出了统一的智能-通信模型,用于描述智能体与环境的相互作用。其中,智能体的感知和行为可以用信息接收和传输来建模。随后,本文回顾和分析了智能体的不同模型之间的关系,重点讨论了学习型智能体模型的设计,提出了具有统一的、可操作的学习型智能体模型设计。

本文后续章节中将提供案例分析和研究,举例说明UIC模型的应用。具体而言,我们将深入探讨UIC模型在两个代表性案例中的应用:一是自然界多智能体系统的机理分析,二是在多机器人系统中通信、感知和行动的联合设计。

参考文献

[1] Shannon, Claude Elwood. “A mathematical theory of communication.” Bell system technical journal 27.3 (1948): 379-423.

[2] Russell, Stuart J. and Peter Norvig. Artificial intelligence: a modern approach. Pearson Education Limited, 2011.

[3] Holland, John H . Hidden Order: How Adaptation Builds Complexity. Leonardo, 1995.

[4] Holland, John H . Signals and boundaries : building blocks for complex adaptive systems. MIT Press, 2014.

[5] Minsky M. The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind[M]. SIMON & SCHUSTER, 2007.

[6] Yann LeCun. Learning World Models: the Next Step towards AI. IJCAI KeyNote Speech, 2018.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值