前沿导读 | 基于大模型智能体的人类行为仿真与生成

程序猿李巡天

于 2024-09-27 20:11:56 发布

阅读量355

点赞数 19

文章标签：人工智能分布式 prompt 机器学习 microsoft

本文链接：https://blog.csdn.net/m0_59235945/article/details/142601484

版权

概念和研究背景

人类行为是人类个体或群体在其生活中对内部和外部刺激做出的反应。可以大致将其划分为六个大类：

1	生理行为：指基于生理机制的自然反应，例如进食、睡眠、呼吸等。通常由身体内部的生理过程和需求驱动。此外，生理行为还包括对外界环境的本能反应，如对疼痛或寒冷的反应。
2	物理行为：指的是个体与物理世界相互作用的方式，涉及主观的身体运动或物理力量的应用。比如，走路、搬运物品、运动等。
3	心理行为：指个体在思维、情感和认知活动中的表现，涉及感知、记忆、思考、决策等过程。例如，人在做出选择时的思维活动，或者在处理压力时的情绪反应。
4	社会行为：是指个体在社会环境中与他人互动的方式，反映了人与人之间的关系和社会规范的影响。社交、合作、竞争等都属于其体现。
5	情感行为：指个体在情绪驱动下的行为反应，比如人在愤怒时的冲动行为，或者在高兴时的表达方式。
6	道德行为：是指个体基于道德准则或伦理标准所做出的决定，反映人的价值观和道德观，与社会期望、文化传统和法律规范密切相关。

人类行为的成因复杂多样，学术界为解析影响行为的因素提出了诸多理论。其中，社会心理学家Icek Ajzen提出的“计划行为理论”[1]具有较大影响力。该理论认为，行为是由意图所驱动，而意图的形成受到三个关键因素的影响：态度偏好、主观规范和可行性感知。所谓可行性感知，指的是个体基于环境条件和自身状况，对行为预期效果进行的评估。这一理论为理解人类行为提供了重要的框架。

图1 计划行为理论示意图

从微观个体偏好，到宏观群体风向，人类行为数据蕴含着大量社会运行的规律，对规划、推荐等领域具有重要意义。然而，由于严重的隐私问题，真实行为数据难以获得，使用模型来生成行为数据便成为研究热点。受限于模型建模能力，传统生成模型大多只能生成可量化的行为数据，如时空行为数据，移动轨迹就是典型代表。

近年来，大语言模型的发展为行为生成带来了新的可能性。角色扮演能力是关键。只需要在prompts中对目标角色进行语言描述，就可以使得智能体产生与描述相一致的行为。无论是画像特征、社会关系，还是语言风格、历史记忆，都可以灵活指定。这不仅可以使得智能体产生定制化的行为[2]，还可以增强智能体运用专业知识的能力，提升回答质量[3]。此外，强大的类人推理能力与情境学习能力，使得运用大语言模型进行人类行为的生成与仿真变得更加高效和简便。

图2 CharacterGLM角色扮演孙悟空[4]

[1] Ajzen, Icek. “The Theory of planned behavior.” Organizational Behavior and Human Decision Processes (1991).

[2] Alireza Salemi, et al. Lamp: When large language models meet personalization. arXiv preprint arXiv:2304.11406, 2023.

[3] Guangyao Chen, et al. Autoagents: The automatic agents generation framework. arXiv preprint, 2023.

[4] Zhou, Jinfeng, et al. “Characterglm: Customizing chinese conversational ai characters with large language models.” arXiv preprint arXiv:2311.16832 (2023).

相关研究梳理

这里，我们想首先明晰行为生成与行为仿真的区别。从问题设定来说，生成是“无中生有”，而仿真是本来就有，模拟出来；从结果评估来说，仿真有标准答案，更具确定性，而生成难有对和错的说法；从问题对象来说，生成更关注个体特性，仿真则更关注集体趋势和系统行为。接下来，我们将分别从生成和仿真两个角度，介绍已有的工作。

大模型for人类行为生成

这部分我们将介绍4篇关于行为生成的工作，依据生成的具体场景和是否与物理场景接轨，我们将这4篇整理如下：

图3 LLM行为生成工作一览

旅行日志生成 旅行日志依然属于移动数据的范畴。但除了时间、距离等空间信息之外，这篇工作还生成了出行的交通方式、意图。在模型的设计中，出行模式是一个核心要素。所谓出行模式，是指出行时间 / 频率 / 出行工具 / 意图 / 常用出行目的地等偏好信息。那么如何提取出行模式呢？文中按照职业、性别、年龄、收入水平、教育程度，将所有人群划分成子群体，对每个子群体，将标注过的轨迹数据放到prompts里，通过引导来提取典型模式。在生成时，根据画像匹配一个最相似的子群体，增强生成的真实性。

图4 旅行日志生成框架示意图 [5]

轨迹生成 整体的生成框架分为三个部分：①受行为科学启发的智能体工作流：启发于“计划行为理论”，让大模型智能体逐步推理，递推生成意图序列；②将抽象意图映射到真实城市空间的物理模型：使用引力模型，基于少量的移动轨迹，将抽象的移动意图映射为具体的POI位置，从而生成完整的轨迹；③面向低成本高效推理的知识迁移方法：由于大模型推理成本高昂，微调本地小模型，在不损失推理性能的前提下，高效推理得到大量意图序列。

图5 轨迹生成框架示意图[6]

家居活动 将大语言模型和智能家居模拟器结合，智能体首先推理得到较高层次的活动意图。然后模拟器会提供相关环境信息（屋内物品的摆放位置、设备的相对位置等），智能体再根据这些信息推理得到更细粒度的行为活动。

图6 家居活动生成框架示意图[7]

疫情行为 指定人物画像（年龄、性格特点、记忆），描述当前周围环境的疫情趋势，让智能体进行行为决策，主要关注是否外出、是否隔离、是否治疗等问题。

图7 疫情行为生成例子[8]

[5] Li, Xuchuan, et al. “Be More Real: Travel Diary Generation Using LLM Agents and Individual Profiles.” arXiv preprint arXiv:2407.18932 (2024).

[6] Shao, Chenyang, et al. “Beyond imitation: Generating human mobility from context-aware reasoning with large language models.” arXiv preprint arXiv:2402.09836 (2024).

[7] Yonekura, Haruki, et al. “Generating Human Daily Activities with LLM for Smart Home Simulator Agents.” 2024 International Conference on Intelligent Environments (IE). IEEE, 2024.

[8] Williams, Ross, et al. “Epidemic modeling with generative agents.” arXiv preprint arXiv:2307.04986 (2023).

大模型for人类行为仿真

这部分我们将介绍7篇关于行为仿真的工作，我们将仿真的具体场景划分为2个大类，整理如下。可以看到，当前对于行为仿真主要还是对社交网络、多智能体协作等场景关注更多。

图8 仿真7篇工作梳理

线上社区行为仿真 面向线上社区设计的需求，设计师制定一些社区规则（社区信息、建立目标、禁止行为），智能体依据行为进行发言和交流。设计师基于智能体的行为检验规则的效果，并进一步调整规则设置。

图 9 社区行为仿真框架示意图[9]

信息传播行为仿真 关注社交平台上热点话题的信息传播行为。此工作对社交平台的信息传播机制做了细致的建模，个人从周围的社交环境中获取信息，做出行为反应，再反过来更新环境信息。实验仿真出来的信息传播速率以及送达率，与真实规律十分相符。

图10 仿真出来的信息传播规律与真实相符[10]

表决行为仿真 使用“参与式预算”（社区成员直接参与决定如何分配公共预算。居民可以提出项目建议、讨论和优先选择他们认为重要的项目，并最终投票决定资金的具体用途。）这一经典的经济问题，让智能体模仿人类进行表决。结果表明，智能体与人类在表决行为上具有显著的区别。思考时的理性程度是一个重要原因。

图11 智能体表决框架[11]

信任行为仿真 在六个信任游戏上对智能体的信任行为进行了仿真。在智能体的建模中应用了BDI模型(Belief–desire–intention software model)来模拟人类的推理与决策。仿真结果发现，智能体可以表现出信任行为，且对画像信息较为敏感。

图12 信任实验[12]

合作行为仿真 斯坦福AI小镇的仿真结果之一。发现智能体可以自发地组织活动，并邀请别的智能体加入，合作举办活动。

图13 斯坦福小镇中智能体们合作举办派对[13]

招聘行为仿真 招聘场景仿真。给每个应聘的智能体都配备了一个技能池(skill pool)，从而实用技能来解决不同的问题，竞争相应的岗位。仿真结果发现智能体可以从环境中检索有效的招聘信息并形成有效的招聘行为。然而，随着招聘会的复杂性和参与者数量的增加，仿真会变得越发混乱。

图14 招聘场景[14]

策略行为仿真 仿真场景为The ultimatum game最后通牒游戏。[15]参与人分为提议者和回应者，提议者拿到一笔钱，决定如何将这笔钱分配给回应者，并提出一个具体的分配方案。回应者可以选择接受或拒绝提议者的分配方案，如果拒绝则两人均分毫不获。仿真结果发现，智能体的行为与人类的行为达到了87.5%的相似率。

[9] Park, Joon Sung, et al. “Social simulacra: Creating populated prototypes for social computing systems.” Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology. 2022.

[10] Gao, Chen, et al. “S $^ 3$ : Social-network Simulation System with Large Language Model-Empowered Agents.” arXiv preprint arXiv:2307.14984 (2023).

[11] Yang, Joshua C., et al. “Llm voting: Human choices and ai collective decision making.” arXiv preprint arXiv:2402.01766 (2024).

[12] Xie, Chengxing, et al. “Can Large Language Model Agents Simulate Human Trust Behaviors?.” arXiv preprint arXiv:2402.04559 (2024).

[13] Park, Joon Sung, et al. “Generative agents: Interactive simulacra of human behavior.” Proceedings of the 36th annual acm symposium on user interface software and technology. 2023.

[14] Li, Yuan, Yixuan Zhang, and Lichao Sun. “Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents.” arXiv preprint arXiv:2310.06500 (2023).

[15] Sreedhar, Karthik, and Lydia Chilton. “Simulating human strategic behavior: Comparing single and multi-agent llms.” arXiv preprint arXiv:2402.08189 (2024).

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述