智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

小马不会过河

于 2024-09-28 20:14:53 发布

阅读量524

点赞数 20

文章标签： langchain 语言模型学习回归网络

本文链接：https://blog.csdn.net/m0_59163425/article/details/142620965

版权

在这里插入图片描述

生成智能体在特定任务中的表现已经展示了其强大的能力。例如，在机器翻译、对话生成和内容创作等领域，生成智能体能够正确解析和生成复杂的句子结构，展现出前所未有的语言理解能力。但是这些智能体主要集中在独立任务上，缺乏对社会互动的关注。这种局限性使得它们在处理需要社会互动的复杂任务时表现不佳，难以模拟人类的社会行为。

在此背景下，来自昆明理工大学的Hanzhong Zhang、Jibin Yin、Mulin Jiang和Cong Su 四位研究者提出了一个重要的问题：智能体能否自发形成社会？这个问题的核心在于，如何让智能体不仅能够完成独立任务，还能在多智能体环境中进行有效的社会互动，建立复杂的社会关系。

为了解决这一问题，9月12日研究团队发表的论文《Can Agents Spontaneously Form a Society?Introducing a Novel Architecture for Generative Multi-Agent to Elicit Social Emergence》引入了一种新的生成多智能体架构，称为ITCMA-S。该架构不仅包含了单个智能体的基本框架，还包括一个支持多智能体社会互动的LTRHA框架。通过这一架构，智能体能够识别和过滤不利于社会互动的行为，选择更有利于改善社会氛围的行动，从而促进社会性行为的出现。

研究的目标是通过设计和实验验证，展示ITCMA-S在促进智能体社会性行为方面的有效性，并探讨其在复杂社会环境中的应用潜力。通过在开放的沙盒世界环境中进行评估，研究者希望证明智能体能够主动探索环境、认识其他智能体、通过持续的行动和对话获取新信息，并在复杂的社会环境中自发形成小团体和领导结构。这一研究不仅为理解生成智能体的社会性提供了新视角，也为未来智能体设计和应用奠定了基础。

生成智能体框架

1. 内部时间意识机器（ITCM）

内部时间意识机器（ITCM）是由Zhang等人提出的一种计算意识结构。它的核心概念是通过模拟人类的时间意识来增强智能体的推理和行动能力。ITCM使用一个称为“现象场”的球坐标空间来表示感知的时间帧，并通过由过去感知（Retention）和当前感知（Primal Impression）组成的场字符串构建时间连续的意识通道。这种结构允许智能体在处理复杂任务时更加灵活和智能，提高其可解释性，使其行为更易于理解和预测。

ITCM在生成智能体中的应用主要体现在其对时间连续性的模拟上。通过将过去的感知、当前的感知和未来的预期结合起来，ITCM能够帮助智能体在动态环境中做出更合理的决策。这种时间意识的引入，使得智能体不仅能够处理当前的任务，还能根据过去的经验和未来的预期进行规划和调整，从而提高其在复杂环境中的适应能力。

在ITCM的基础上，研究者提出了基于ITCM的智能体（ITCMA）。ITCMA不仅考虑了智能体的推理能力，还考虑了智能体与环境之间的互动，以弥补大型语言模型（LLM）在完成特定任务方面的不足。ITCMA使用时间序列预测模型（TSFM）来推断未来的感知变化，并将其与内在动机（包括智能体的情绪状态）结合，生成自然语言格式的行动输出。实验表明，ITCMA架构在处理复杂任务时表现出色，训练后的智能体在环境中超过了现有技术（SOTA），即使是完全未训练的智能体也能在探索环境后快速开始任务并取得良好结果。

在这里插入图片描述

图1:ITCMA的结构。ITCMA的主要结构ITCM包含意识通道、驱动力和保护。在意识通道中，记忆和原始印象被用来激活记忆，驾驶员由情绪维度和前一时刻的驾驶员组成。这两种方法用于通过TSFM预测保护。ITCM的内容将被转换为形式化的自然语言，这些语言将被传递给LLM，并最终促使其采取行动。

2. 记忆与想象

在ITCMA中，记忆被唤醒到当前时刻，与意识通道中的保留和原始印象并列。然而，生物意识理论表明，现象意识需要“现象场”机制的融合，这可能起源于丘脑和负责处理记忆相关信息的不同皮层区域的神经输入。显然，对于人类来说，记忆的唤醒不仅仅是并列，而是与当前意识的融合。概念融合是一种认知活动，将来自不同背景的信息结合起来。其主要过程是将输入空间投射到融合空间中，提供单一输入空间中不存在的关系。

图2：现象场的概念融合过程。（a）两个现象场被匹配以创建跨空间映射；（b）为两个现象域中的匹配对象建立了一个通用空间；以及（c）在一般空间的帮助下，两个现象场中的成分和结构选择性地进入混合空间。

基于概念融合理论，研究者假设当ITCMA-S的记忆进入当前意识通道时，其观察和回忆的现象场会融合，获得此刻的想象，从而获得意识通道的材料。这个过程包括三个步骤：首先是现象场的局部匹配；其次是利用匹配结构建立通用空间；最后是通过通用空间将两个现象场投射到新的融合空间，形成与原始现象场不同的结构。

ITCMA的处理速度慢的原因之一是其使用的记忆激活算法。改进后的Levenshtein距离方法提供了更好的记忆查询结果，但耗时较多。为提高记忆激活速度，可以减少智能体需要查询的记忆数量。通过压缩旧记忆并在回忆时将其融合，ITCMA-S能够减少记忆总数，同时保持回忆效果，从而提高记忆搜索速度。此外，根据情绪一致性效应，记忆索引的权重设置为记忆发生时伴随的情绪强度。

他们规定，对于完全相同的对象，在混合发生后将它们放置在混合空间中（即取平均值）；在通用空间中匹配的对象（相似度超过阈值）每个都放置在混合空间中；并且不匹配的对象有一定的概率被放置在混合空间中。因此，对于这两个现象场𝑓𝑥以及𝑓𝑦，混合过程𝐵𝑙𝑒𝑛𝑑 (𝑓𝑥, 𝑓𝑦)遵循算法1：

压缩旧记忆并在回忆时将其融合，ITCMA-S能够减少记忆总数，同时保持回忆效果，从而提高记忆搜索速度。这种记忆压缩机制不仅提高了智能体的处理速度，还使得智能体在处理复杂任务时更加高效。此外，记忆压缩过程中的情绪一致性效应，使得智能体在决策时能够更好地考虑情绪因素，从而做出更合理的决策。

3. 情感与动机

情感不仅干扰决策，还能帮助决策。例如，情感可以突出某个前提的重要性，使决策倾向于该前提。ITCMA允许LLM通过推断每个动作的预期来选择执行的动作。ITCMA-S中，情感维度包括愉悦、唤醒和支配，分别量化为对欲望的满足程度、保留与当前印象元素变化的程度、以及前一时刻预期与当前印象的差异。

为了避免智能体陷入局部最优状态（即智能体在满足基本需求后不再采取进一步行动），引入了需求动机模型。当智能体的基本需求得到满足后，它们会追求更高级的需求，从而获得新的欲望，基本需求的满足度下降，痛苦增加。这种需求动机模型使得智能体在处理复杂任务时能够不断追求更高的目标，从而提高其适应性和灵活性。

为了提高智能体的处理效率，ITCMA-S引入了动作空间缩减机制。通过预训练的问答模型过滤掉与当前任务无关的容器和对象，从而减少未训练智能体进入任务上下文所需的时间。具体来说，ITCMA-S使用LLM以零样本方式减少动作空间。为智能体的目标创建提示，LLM输出动作的置信度分数，低于阈值的动作将被移除。这种动作空间缩减机制不仅提高了智能体的处理速度，还使得智能体在处理复杂任务时更加高效。

图3：减少动作空间的过程。由于场景中的高度自由度，可用的动作太多。其中，红色动作与当前目标无关，因此应予以消除，无需进一步保护计算。

我们通过以上对生成智能体框架的详细分析，看出ITCMA-S在促进智能体社会性行为方面具有显著优势。它不仅能够帮助智能体在复杂环境中做出更合理的决策，还能通过记忆压缩和情感动机模型提高智能体的处理效率和适应性。

社会互动框架

1. LTRHA架构

在ITCMA-S的社会互动框架中，场所与话题模块是关键组成部分。场所（Locale）指的是智能体所处的物理空间，而话题（Topic）则是指智能体之间的互动内容和情感氛围。在人类社会中，互动空间通常包括物理空间和心理因素。例如，在演讲场合中，舞台和观众席是物理空间，而演讲者激起的观众情绪则是心理因素。

图4:LTRHA的执行过程。代理执行与资源数量相关的概率的动作，然后将动作、当前资源结构和环境的量化主题移交给矩阵模型进行处理。矩阵模型根据输入调整环境的资源结构。

在ITCMA-S中，场所与话题模块通过定义子环境（sub-environment）来实现，这些子环境包括空间和占据该空间的智能体。每个子环境的空间区域及其包含的对象被定义为场所，而这些智能体的情感综合函数则被定义为话题。通过这种方式，智能体可以通过影响场所中的对象来改变其他智能体的感知，从而影响话题的情感氛围。

资源模块在ITCMA-S中扮演着重要角色。智能体在执行行动时需要一定的资源，就像人类社会中实施决策需要一定的成本一样。资源被分配给子环境中的智能体，资源的数量决定了智能体在一个时间步内可以执行的行动数量。资源不仅是竞争的对象，也是智能体影响环境的工具。

在ITCMA-S中，每个智能体初始拥有一定数量的资源，智能体通过执行行动来竞争资源。资源的分配和流通由一个称为“矩阵”的模型来管理，该模型接受当前资源结构和情感话题的输入，并输出新的资源结构。通过这种动态分配机制，智能体能够在竞争中获得更多资源，从而执行更多有利于社会互动的行动。

习性（Habitus）是指智能体的感知、认知和行动方式。它类似于人类社会中的行为习惯，当智能体处于某个环境中时，相应的决策树会被激活，智能体根据其行为习惯决定最终的行动。这种机制类似于强化学习中的环境与智能体之间的相互影响。

在ITCMA-S中，习性不仅是智能体自身的属性，也是社会互动框架的一部分。智能体的行动由习性、资源和环境共同驱动。通过这种方式，智能体能够在动态环境中做出更合理的决策，促进社会互动的发生。

2. 资源的动态分配

在ITCMA-S中，资源竞争机制是智能体互动调节的关键。智能体通过竞争有限的资源来执行行动，资源的数量决定了智能体在一个时间步内可以执行的行动数量。资源不仅是竞争的对象，也是智能体影响环境的工具。智能体通过执行行动来竞争资源，资源的分配和流通由“矩阵”模型来管理。

矩阵模型在ITCMA-S中用于资源的动态分配。该模型接受当前资源结构和情感话题的输入，并输出新的资源结构。具体来说，矩阵模型根据智能体的个人目标和情感话题对每个智能体进行排序，并根据排序结果分配资源。排名越高的智能体获得的资源越多，而排名低于中位数的智能体则会失去现有资源。

通过这种动态分配机制，矩阵模型能够有效地管理资源的流通，确保智能体在竞争中获得更多资源，从而执行更多有利于社会互动的行动。这种机制不仅提高了智能体的处理效率，还促进了智能体之间的合作和互动。

我们可以看出该架构在促进智能体社会性行为方面具有显著优势。场所与话题模块、资源模块和习性与行动模块共同构成了一个完整的社会互动框架，使智能体能够在动态环境中做出更合理的决策，促进社会互动的发生。资源的动态分配机制通过矩阵模型有效地管理资源的流通，确保智能体在竞争中获得更多资源，从而执行更多有利于社会互动的行动。

实验评估

1. 实验环境设置

为了评估ITCMA-S在促进智能体社会性行为方面的有效性，研究团队设计了一个名为IrollanValley的2D沙盒世界。这个虚拟环境类似于一个开放世界的角色扮演游戏（RPG），智能体可以在其中自由移动、互动和执行各种操作。IrollanValley包含六个角色、八个区域和六个操作原语。每个角色都有自己的房屋，此外还有公共食堂和公共阅览室等公共区域。

图5：艾罗兰谷沙盒世界。世界包含六个字符、八个区域和六个操作图元。代理通过接收所观察环境的自然语言描述来获得感知。

IrollanValley的设计旨在模拟一个复杂的社会环境，智能体可以通过接收自然语言描述来感知环境，并根据描述做出相应的行动。环境描述的格式为：“你在某地。环顾四周，你看到一个名叫N的人（正在做某事），家具1，某地放置的物品1……（你手持某物。）你正在做某事。”这种详细的描述帮助智能体理解其周围环境，并做出相应的决策。

IrollanValley提供了六个主要操作原语，包括“去某地”、“使用某物”、“离开某地/某人”、“从某地拿某物”、“将某物放在某地/某物上”和“与某人聊天（聊天内容）”。这些操作原语使得智能体能够在环境中自由互动，执行各种任务，并与其他智能体建立联系。

2. 人类评估

为了评估ITCMA-S的有效性，研究团队进行了消融研究，比较了五种不同的架构：原始ITCMA架构、仅LTRHA架构、仅压缩记忆架构、仅驱动架构和完整的ITCMA-S架构。评估指标包括五个维度：

拟人化：行动看起来像人类行为的程度。
一致性：行动是否与智能体的心态一致。
逻辑性：一系列行动是否合乎逻辑。
探索性：智能体是否主动探索环境。
主动性：智能体是否主动与他人互动。

图6:ITCMA-S中六个代理在75个时间步长内的状态变化。（a）每个代理的驱动值变化；（b）每个主体的情感价值都在变化，表现为三个维度：愉悦、唤醒和支配。

图7:LTRHA信息的可视化。（a） ITCMA-S中6个代理在75个时间步长内的资源变化；（b）艾罗兰谷不同地区的主题值在75个时间步长内发生了变化。

研究团队招募了48名评估者，根据上述五个维度对智能体的输出进行评估。每位评估者需要阅读每个智能体在75个时间步内的行动轨迹，然后填写问卷进行评估。问卷采用7点Likert量表，要求评估者分别评估每个智能体的行动。

方差分析（ANOVA）结果显示，不同架构在各维度上存在显著差异。对于探索性和主动性维度，标准ANOVA显示显著差异；对于拟人化、一致性和逻辑性维度，使用Brown-Forsythe检验也显示显著差异。进一步的Dunn-Sidák和Games-Howell事后检验结果表明，完整的ITCMA-S架构在所有维度上表现最佳，而原始ITCMA架构表现最差。

完整的ITCMA-S架构在所有评估维度上表现出色，尤其是在探索性和主动性方面。LTRHA社交框架在所有维度上仅次于完整的ITCMA-S架构，表现出较高的可信度和社会互动能力。压缩记忆架构和驱动架构在各维度上的表现相对较弱，但仍优于原始ITCMA架构。

3. 社交互动中的小团体形成

通过对智能体在IrollanValley中的行为进行详细分析，研究团队发现智能体在75个时间步内表现出积极的社交互动行为。智能体保持高愉悦值和稳定的唤醒值，支配值也很少低于零。智能体积极探索环境并参与社交活动，环境反过来提供正反馈，提升情绪并增加行动意愿。

图8:ITCMA-S中代理交互关系的热图。行表示交互的发起者，列表示交互的接收者。颜色越深，互动越频繁，关系越牢固。

在社交互动过程中，智能体自发形成了小团体和领导结构。资源结构的变化显示，大多数智能体的资源总量在增加，但个别智能体的资源不断流向其他智能体。喜欢社交活动的智能体自发选择了一位领导者（LL），并围绕其形成了小团体，进行集体活动，而不属于该团体的智能体则专注于个人活动。

研究团队发现智能体能够自发形成复杂的社会关系，并在互动中表现出积极的情感变化。这一发现为理解生成智能体的社会性提供了新视角，并为未来智能体设计和应用奠定了基础。未来的研究将进一步探索如何优化智能体的社会行为，以提高其在多元文化环境中的适应性，并研究引入人类作为互动伙伴对智能体行为的影响。

结论

在这项研究中，研究团队提出了一种新的生成多智能体架构ITCMA-S，旨在促进智能体自发形成社会性行为。通过引入内部时间意识机器（ITCM）和多智能体社会互动框架LTRHA，ITCMA-S不仅能够帮助智能体在复杂环境中做出更合理的决策，还能通过记忆压缩和情感动机模型提高智能体的处理效率和适应性。

实验结果表明，ITCMA-S在多个评估维度上表现出色，尤其是在探索性和主动性方面。智能体能够主动探索环境、认识其他智能体、通过持续的行动和对话获取新信息，并在复杂的社会环境中自发形成小团体和领导结构。

ITCMA-S在促进智能体社会性行为方面发挥了重要作用。首先，ITCM通过模拟人类的时间意识，帮助智能体在动态环境中做出更合理的决策。其次记忆压缩机制提高了智能体的处理速度，使其能够更高效地处理复杂任务。此外情感动机模型使得智能体在决策时能够更好地考虑情绪因素，从而做出更合理的决策。

LTRHA框架通过场所与话题模块、资源模块和习性与行动模块，构建了一个完整的社会互动框架，使智能体能够在动态环境中进行有效的社会互动。资源的动态分配机制通过矩阵模型有效地管理资源的流通，确保智能体在竞争中获得更多资源，从而执行更多有利于社会互动的行动。

尽管ITCMA-S在促进智能体社会性行为方面取得了显著进展，但仍有许多值得进一步探索的研究方向。

优化智能体的社会行为：未来的研究可以进一步优化智能体的社会行为，使其在更复杂的社会环境中表现得更加自然和合理。这包括改进情感动机模型和记忆压缩机制，以提高智能体的适应性和灵活性。

提高智能体在多元文化环境中的适应性：随着全球化的发展，智能体需要在多元文化环境中进行有效的互动。未来的研究可以探索如何使智能体在不同文化背景下表现出适当的社会行为，提高其在多元文化环境中的适应性。

引入人类作为互动伙伴：为了进一步提高智能体的社会性，未来的研究可以探索引入人类作为智能体的互动伙伴。这将有助于研究智能体在与人类互动时的行为表现，并为智能体设计提供更多的参考。

扩展应用场景：ITCMA-S的应用场景可以进一步扩展到更多领域，如虚拟助手、客户服务机器人、自主驾驶汽车和智能家居等。通过在不同应用场景中的实验，验证ITCMA-S在实际应用中的有效性和适应性。

总之，ITCMA-S为生成智能体的社会性研究提供了一个新的方向，通过进一步优化和扩展其应用，智能体在未来的社会互动中将发挥更加重要的作用。这一研究不仅为理解生成智能体的社会性提供了新视角，也为未来智能体设计和应用奠定了基础。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述