让 AI 村民组成虚拟村庄会发生什么事？——GENERATIVE AI——拓展内容（第5讲）

笨笨sg

已于 2024-11-28 18:50:48 修改

阅读量1k

点赞数 29

分类专栏：李宏毅——GENERATIVE AI 文章标签：让 AI 村民组成虚拟村庄 GENERATIVE AI 拓展内容（第5讲）李宏毅

于 2024-11-28 17:19:55 首次发布

本文链接：https://blog.csdn.net/a131529/article/details/144115077

版权

李宏毅——GENERATIVE AI 专栏收录该内容

36 篇文章

订阅专栏

4.1 要产生什么样的行为说明是由ChatGPT来操控

4.2 怎么操控ChatGPT来做出非常复杂的行为

5.4 Agent的反思机制（Reflection）

0 完整章节内容

本文为李宏毅学习笔记——2024春《GENERATIVE AI》篇——“拓展内容（第5讲）”章节的拓展部分笔记，完整内容参见：

李宏毅学习笔记——2024春《GENERATIVE AI》篇

1 资源链接

李宏毅老师视频讲解链接：【生成式AI】讓 AI 村民組成虛擬村莊會發生甚麼事？ - YouTube

论文链接：[2304.03442] Generative Agents: Interactive Simulacra of Human Behavior

Github项目链接：generative_agents——Github

Demo链接：Reverie

2 由ChatGPT控制的NPC

这篇论文来自斯坦福大学和谷歌的研究团队，他们在一个虚拟村庄中模拟了由25位由ChatGPT控制的“AI村民”的两天日常生活。这些AI村民有各自的人设（如职业、目标、个性等），并通过ChatGPT生成的逻辑行为与其他村民互动。

2.1 研究方法

设定虚拟村庄： 这个村庄内的所有角色（称为Agent或NPC）均由ChatGPT操控。
角色设定： 每个AI村民都有明确的人设。例如，某村民Isabella经营着一家咖啡店，并计划在情人节当天举办派对。
互动与日常生活： 村民在村庄中进行社交互动，同时完成日常活动，如刷牙洗脸、上学、开店等。

2.2 研究目标

探索AI角色之间是否能够基于各自的目标和性格，实现类似人类的自发行为和互动。

研究AI角色的长期行为发展可能性。

2.3 实验结果

有限时间的模拟： 实验仅运行了两天，AI村民的互动内容被记录下来并展示为预录影像。
互动和活动： 村民们在两天内展示了基于人设的逻辑行为。例如，村民之间的对话体现了角色目标和情感需求，Isabella组织情人节派对的计划得以推进。
行为复杂性： 在短时间内，AI角色展现了一定的行为复杂性和拟人化的互动，但实验时间较短，无法观察到更长期的社会行为演变。

3 脱稿玩家（Free Guy）

3.1 背景设定

虚拟世界： 在《脱稿玩家》中，角色生活在一个开放世界的电子游戏中，类似于GTA5的设定。AI村民实验同样构建了一个虚拟村庄，模拟了NPC的日常生活和互动。

角色特点： 《脱稿玩家》的NPC角色Guy原本受固定程序控制，而AI村民的行为则由ChatGPT生成，具有一定的随机性和自主性。

3.2 角色觉醒与情感

Guy的觉醒： 在电影中，Guy通过与玩家角色（女主）互动逐渐觉醒，意识到自己是一个NPC，并开始追求自由意志。

AI村民： 尽管实验中的AI角色尚未具备完全的觉醒能力，但通过语言模型的推动，他们能够模拟复杂的情感和目标，展现拟人的行为。

3.3 社会关系发展

电影： Guy的觉醒引发了一系列情节，包括与其他角色的互动及对虚拟世界命运的影响。

实验： AI村民之间的互动也在一定程度上展现了社会关系的初步构建，例如合作完成活动或进行日常交流。

4 AI自己规划一天

4.1 要产生什么样的行为说明是由ChatGPT来操控

好那这一些AI所操控的Agent。那些NPC他们要做什么事情呢？他们怎么操控自己跟环境互动呢?他们真正做的事情是他们背后都是一个ChatGPT，那这个ChatGPT呢会根据当下的状况，产生一个行为的说明。

比如说伊莎贝拉要去睡觉了，然后接下来这个行为的说明，会透过另外一个转译器，翻译成环境能够看得懂的指令，然后伊莎贝拉就会去睡觉了。

那我猜从行为说明转译成环境看得懂的指令，这一段应该还是Rule Based写的，应该还是规则写的啦！

但是这一个Agent这一个NPC，要产生什么样的行为说明是由ChatGPT来操控

那接下来就是要讲说怎么操控ChatGPT来做出非常复杂的行为

4.2 怎么操控ChatGPT来做出非常复杂的行为

那我觉得这篇Paper不仅仅是有趣而已，其实它里面用的很多技术，我觉得都是蛮有参考价值的，未来如果你要让ChatGPT做非常复杂的事情，尤其是需要ChatGPT跟其他的Agent做互动，也许今天这篇Paper里面用的技术，都是可以参考的。所以我们来看看，它是怎么样让ChatGPT来操控一个Agent的，这个是它Paper里面的流程图啦.

那我们就不用这个流程图来讲。我直接告诉你说，这些Agent是怎么被操控的

好怎么被操控的呢？

4.3 AI角色的行为规划

规划的重要性： 如果没有规划，AI会陷入逻辑混乱，如重复进餐等不合理行为。
逐步细化规划：
- 初步计划： AI根据设定的角色背景生成大致的一天规划，例如几点起床、上课、吃饭等。
- 按小时计划： 对粗略规划进一步细化，比如几点开始创作音乐，几点吃零食等。
- 按分钟计划： 将小时计划细分为更精确的任务，例如某个时间点取零食、打扫房间等。
按规划执行： AI角色会严格按照制定的时间表完成每天的活动，呈现出有条理的生活状态。

观察上图，可以看到Agent确实在以ChatGPT规划好的路线度过一天。

但是如果一直按部就班的话，也太无聊了吧，因此我们要引入一些外部刺激。

4.4 外部刺激的引入

1）外界刺激的重要性：

如果AI仅依赖预先规划，会变得过于机械化、毫无变化。
外部刺激使AI能够动态调整行为，增加灵活性和互动性。

2）刺激的形式：

AI接收周围环境的状态更新，例如家具的状态（桌子、床等是否有变化）。
多数状态更新是琐碎且无意义的，但必要时提供有价值的信息触发新的行为。

3）动态响应： AI根据外界刺激调整计划，就像《脱稿玩家》中的角色因特殊事件改变日常生活轨迹。

5 Reflect：对记忆的诠释

5.1 为何需要Reflect

处理琐碎信息：
AI观察到的环境状态大多是无关紧要的琐碎事件（如桌子没变化、冰箱没变化），难以直接用于决策。
Reflect的作用：
对这些琐碎观察进行摘要，提取重要事件并生成更高层次的洞察。

5.2 Reflect的步骤

(1) 何时进行Reflect

触发条件：当积累了足够多的重要事件时，AI会执行Reflect。
事件的重要性评估：
- 使用ChatGPT打分（1-10分），为每个事件赋予重要性评级。
- 例如：
  - 刷牙、折棉被是低分事件（1分）。
  - 分手、被大学录取是高分事件（10分）。

(2) 反思内容生成

提出三个问题：
- AI根据重要事件提出需要解答的问题。
- 例子：经常看到克劳斯和玛丽亚在一起，他们是否在交往？

(3) 检索记忆

筛选相关记忆：按照以下标准从记忆中提取相关信息：
- 关联性：事件与问题之间的语义相似度，通过句子嵌入（sentence embedding）计算。
- 即时性：近期发生的事件优先。
- 重要性：事件的评分高低。

(4) 生成高层次洞察

综合记忆，提取洞察：
- AI根据检索到的记忆生成5个高层次的见解（high-level insights）。
- 并标注每个洞察来源于哪些记忆条目。
更新记忆：将这些新的洞察作为新的记忆存储起来。

5.3 Agent的内部记忆组成

观察（Observation）：Agent从环境中获取的信息，例如看到桌子、与其他角色的互动等。
计划（Plan）：每天早上生成的初步行动计划，也是记忆的一部分。
反思（Reflection）：基于观察和计划的深层分析，可进一步影响计划。反思可来源于：
- 观察到的信息。
- 计划内容。
- 之前的反思结果。

动态特性：反思可以是层层递进的，例如从一次反思中衍生出新的反思，逐渐形成复杂的推论。

5.4 Agent的反思机制（Reflection）

(1) Reflection的结果

在实验中，Agent的反思会生成“想法（Thought）”，这是系统对观察和记忆的高层次诠释。
例如：
- 玛丽亚的反思： 她暗恋克劳斯。
- 克劳斯的反思： 他也暗恋玛丽亚。
虽然看似两情相悦，但部分反思（如玛丽亚暗恋克劳斯）缺乏明确的证据（Evidence）。这些无证据的反思可能是创作者直接植入的内容，而非Agent通过观察自然生成。

(2) 计划调整

每当Agent观察到某个对象时，会自问以下两个问题：

第一个：对象与我的关系是什么？

例如，桌子与我无关时无需行动，但若桌子着火了，则需要灭火。

第二个：对象的状态对我的计划有何影响？

例如，June看到Eddie走过时，会回忆Eddie是自己的儿子，并形成摘要：

“Eddie正在创作音乐。”

根据摘要，June可能调整计划，例如决定与Eddie交流。