《Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf》全文翻译

论文信息

摘要

交流博弈,我们称之为严重依赖自然语言交流的不完全信息博弈,在经济学、社会科学、人工智能等领域具有重要的研究价值。在这项工作中,我们探讨了如何在交流游戏中使用大型语言模型(LLM)的问题,并作为回应,提出了一个免调优框架。我们的方法使 LLMs 保持冻结状态,并依赖于对过去的沟通和经验的检索和反思来进行改进。对具有代表性和广泛研究的通讯游戏 “狼人杀” 的实证研究表明,我们的框架可以有效地玩狼人杀游戏,而无需调整 LLMs 的参数。更重要的是,战略行为开始在我们的实验中出现,这表明 LLMs 参与通信游戏和相关领域将是一次富有成果的旅程。

1. 介绍

由于狼人杀(Ri et al.,2022)和扑克(Brown and Sandholm,2019)等不完全信息游戏可以作为利用经济和社会科学中各种基本问题的良好代理(Gibbons,1992),近年来,用人工智能(AI)代理玩此类游戏的研究引起了广泛关注(Brown and Sandholm,2019;FAIR et al.,2022;Toriumi et al.,2017)。严重依赖自然语言交流的交流游戏,例如狼人杀,呈现出更大的实际价值和挑战,因为智能体必须从本质上模糊的自然语言话语中收集和推断信息。 Toriumi et al., 2017; FAIR et al., 2022),大多数都对游戏中使用的语言施加严格限制(Osawa et al.,2014; Hirata et al.,2016; Shibata et al.,2023)或需要大量人工注释数据(FAIR 等人,2022; Kramár et al.,2022)。因此,人工智能代理以自然的方式玩通信游戏仍然具有挑战性。

幸运的是,像 ChatGPT (OpenAI, 2022) 这样的大型语言模型 (LLMs) 最近取得了重大进展。这些模型在广泛的学术和专业考试中表现出了令人印象深刻甚至超越人类的表现(OpenAI,2023),展示了复杂的语言理解、生成和推理能力。此外,研究表明 LLMs 表现出一定程度的心理理论能力(Bubeck et al., 2023; Shapira et al., 2023; Kosinski, 2023),以及模拟可信人类行为的潜力(Park等人,2023)。最近的研究还表明,LLMs 可以通过相互交流来提高自己(Fu et al., 2023)或更好地符合人类价值观(Liu et al., 2023)。所有这些进步使 LLMs 成为应对挑战的有前途的候选人,使人工智能代理能够以更自然和复杂的方式参与通信游戏。

然而,对于 LLMs 来说,玩交流游戏并不是一件小事。首先,LLMs 的有限最大输入长度(也称为上下文长度)限制了单次可以传递的信息量。在通信游戏中,历史信息对于决策很重要,但通常太大而无法由 LLMs 处理。其次,理解其他玩家的意图并做出适当的决定来赢得比赛需要复杂的推理,这对 LLMs 来说是一项艰巨的任务(Zhou et al., 2023)。第三,LLMs 可以像人类一样学习经验来升级他们的行为。不幸的是,微调 LLMs 并不实用,因为它既耗时又需要大量数据。

在这项工作中,我们的目标是探索基于 LLMs 的狼人杀游戏代理,这是一种具有代表性且被广泛研究的通信游戏。为了解决上下文长度有限的问题,我们提出了一种方法来检索和反映必要的历史信息,从而为每个基于 LLMs 的代理提供紧凑的上下文。此外,反射过程还可以起到增强智能体推理能力的作用,其功能类似于思维链机制(Wei et al., 2022)。为了从经验中学习而不调整监督数据的模型参数,我们提出了一种根据当前情况从过去经验中提取建议的机制。我们的目标是防止 LLMs 在多场比赛中重复犯类似的错误。实验表明 LLMs 在玩沟通游戏方面具有巨大潜力。我们的贡献可概括如下:

  • 我们提出了一个框架,用于在没有人工注释数据的情况下与冻结的 LLMs 一起玩交流游戏。
  • 对狼人的实证研究表明,我们的框架展示了从经验中学习的能力,而无需调整 LLMs 的参数。
  • 信任、对抗、伪装和领导等战略行为开始在我们的实验中出现,这可以作为通信游戏 LLMs 进一步研究的催化剂。

2. 背景:狼人杀

狼人杀游戏有多种版本。图 1 显示了我们在这项工作中采用的版本的示例。具体来说,有七名玩家,分别扮演五种不同的角色:两名狼人、两名村民、一名女巫、一名守卫和一名预言家。所有涉及的角色都分为两侧,一侧是狼人,另一侧包括村民和特殊角色(即女巫、守卫和预言家)。狼人的目标是消灭所有村民,而村民的目标是与特殊角色合作消灭所有狼人。如果村民和特殊角色想要获胜,游戏结束时至少应该有一名活着的村民。游戏在白天和晚上两个阶段交替进行。每天晚上,狼人都可以投票淘汰一个角色。白天,所有活着的玩家会组织一次公开讨论,然后投票消灭一名可疑的狼人。至于特殊角色,女巫可以使用一瓶解药和一瓶毒药,在游戏中只能使用一次,来拯救或毒害角色。守卫每晚可以保护一个角色不被淘汰。预言家每晚都可以揭开一名玩家的角色。
在这里插入图片描述

图 1:我们实现的狼人杀游戏的快照。共有 5 个角色、7 名玩家,每个角色均由一名 LLMs 自主扮演。每次发言前的数字表示发言顺序。在这个人物中可以主要观察到一些社会行为,包括信任、对抗、伪装和领导。

狼人杀游戏的一个重要特点是所有玩家一开始只知道自己的角色。他们必须通过基于自然语言的交流和推理来推断其他玩家的角色。因此,要在狼人杀中表现出色,智能体不仅要善于理解和生成自然语言,还要具备高级能力,例如破译他人意图和理解心理理论(Toriumi et al., 2017)。这个因素使得《狼人杀》成为交流游戏研究的一个很好的试验平台。

3. 与 LLMs 一起玩狼人杀

3.1 符号

我们将一个完整的昼夜周期称为一天,用 t t t 索引。一轮由多天组成,从游戏开始到一方获胜或达到预定义的最大天数之日。我们将通过 r r r 来索引一轮。代理编号为 i i i。在下面的章节中, X i ( r , t ) X^{(r, t)}_i Xi(r,t) 形式的符号表示它对应于第 r r r 轮和第 t t t 天的代理 i i i。为简洁起见,当上下文清楚时,将省略 r r r t t t。智能体对他人所说的话称为响应,智能体听到的单词称为观察,表示为 G G G O O O。此外,智能体还会根据通信历史生成当前情况的自然语言摘要,称为反射并表示为 R R R(有关更多信息,请参阅§3.3)。为简洁起见,如果需要一起考虑,我们将把响应、观察和反思称为消息。

3.2 总体框架

在这里插入图片描述

图 2:生成响应的提示概要。斜体是注释。

对于游戏中的每个角色,我们通过提示实现一个基于 LLMs 的单独代理,完整的提示可以在附录 A.5 中找到。图 2 显示了响应生成的提示的轮廓,它由四个主要组成部分组成:(1)游戏规则、分配的角色、每个角色的能力和目标,以及有效游戏策略的一些基本人类先验(第 1 部分); (2)最近的 K K K 条消息(第 2.1 部分)、一组启发式选择的信息消息(第 2.2 部分)以及代理的反映(第 2.3 部分); (3)从过去的经验中提取的建议(第3部分); (4) 引发推理的思维链提示(第 4 部分)。第二部分的主要挑战是 LLMs 的上下文长度有限,其细节将在第 3.3 节中讨论。第三个组件负责从经验中学习而不调整模型参数,将在第 3.4 节中介绍。

对于使用经验,与我们最相关的作品是 Shinn 等人的作品(2023)和 Fu 等人(2023)。然而,前者仅限于在单轮游戏中使用经验,后者是为两人游戏而设计的。相比之下,我们的方法能够利用跨轮体验,并能够应用于多人场景。

3.3 历史信息收集

显然,交流历史在《狼人杀》中扮演着重要的角色。然而,由于 LLMs 的上下文长度限制,通过提示将所有历史记录输入 LLMs 是不现实的。为此,我们建议从新鲜度、信息量和完整性三个角度收集历史信息,兼顾有效性和效率。

新鲜度。直观上,最近的历史应该包含在上下文中。因此,我们在上下文中包含最近的 K K K 条消息,表示为 O i t O^t_i Oit图 2 中的第 2.1 部分)。

信息量。携带用于推断代理角色的关键信息的消息应包含在上下文中,例如,消息公开代理的角色。为了提高效率,我们使用规则匹配收集易于识别的信息性消息,并将按启发式度量排名的前 N N N ​​条消息填充到提示中,表示为 V i t V^t_i Vit图 2 中的第 2.2 部分)。附录 A.1 中提供了规则和指标。

完整性。以上两种观点只涵盖了有限的历史信息。因此,从整个历史中提取更多信息至关重要。然而,由于 LLMs 的上下文长度限制,它并不简单。为此,我们提出采用提问式反思的方式,做到效果与效率并重。由此产生的反射被表示为 R i t R^t_i Rit图 2 中的 2.3 部分)。

假设当前日期是 t t t,我们首先为每个智能体 i i i 建立一个短期记忆 M i t M^t_i Mit,其中包含智能体 i i i 直到现在说话时间的所有观察和反射。然后我们提示 LLM 从预定义的集合(附录 A.2)中选择 L L L 个问题,并以 O i t O^t_i Oit 为条件提出 M M M 个额外问题,希望这些 L + M L+M L+M 问题的答案 Q i t = { q i , j t } j = 1 L + M Q^t_i = \{q^t_{i,j}\}^{L+M}_{j=1} Qit={qi,jt}j=1L+M 能够尽可能多地覆盖历史信息。然后,对于每个问题 q i , j t q^t_{i,j} qi,jt,我们在问答任务上使用微调的 Sentence-BERT(Reimers 和 Gurevych,2019)模型来从 M i t M^t_i Mit 检索前 T T T 条消息 U i , j t = { u i , j , k t } k = 1 T U^t_{i, j} = \{u^t_{i,j,k}\}^T_{k=1} Ui,jt={ui,j,kt}k=1T,并提示 LLM 获取 q i , j t q^t_{i, j} qi,jt 的答案 a i , j t a^t_{i, j} ai,jt
a i , j t = A n s w e r ( q i , j t , U i , j t ) a^t_{i, j} = Answer(q^t_{i, j}, U^t_{i, j}) ai,jt=Answer(qi,jt,Ui,jt)

最后,使用 LLM 通过反映最近的消息 O i t O^t_i Oit、选择的易于识别的信息性消息 V i t V^t_i Vit 和答案 A i t = { a i , j t } j = 1 L + M A^t_i= \{a^t_{i,j}\}^{L+M}_{j=1} Ait={ai,jt}j=1L+M 来获得反射 R i t R^t_i Rit
R i t = R e f l e c t ( O i t , V i t , A i t ) R^t_i = Reflect(O^t_i, V^t_i, A^t_i) Rit=Reflect(Oit,Vit,Ait)

使用的提示如附录 A.5 所示。

3.4 汲取经验

在实践中,玩家在玩狼人杀时使用的策略可能会随着玩家获得更多经验而演变。此外,一个玩家的策略也可能受到其他玩家策略的影响。因此,一个理想的狼人杀 AI 代理应该能够借鉴自己的经验和其他玩家的经验。为此,我们提出了一种非参数学习机制,使 LLMs 能够借鉴经验而无需调整参数。一方面,我们在每轮结束时收集所有玩家的反应和反思对并进行评分,形成经验池。另一方面,在新一轮的每一天,我们从池中检索最相关的经验,并从中提取建议来指导智能体的推理。

经验池。经验池是响应、反思和分数元组的集合。形式上,假设回合 r r r T m a x T_{max} Tmax 天结束,赢得比赛的智能体形成集合 W W W,其他智能体形成集合 L L L。对于每个智能体 i i i,我们将回合 r r r 中从中收集的经验 E i r E^r_i Eir 定义为:
E i r = { ( R i ( r , t ) , G i ( r , t ) , s i ( r , t ) ) } t = 1 T m a x E^r_i = \{(R^{(r, t)}_i, G^{(r, t)}_i, s^{(r, t)}_i)\}^{T_{max}}_{t=1} Eir={(Ri(r,t),Gi(r,t),si(r,t))}t=1Tmax

其中 G i t G^t_i Git R i t R^t_i Rit 分别是上一节中定义的响应和反射, s i t s^t_i sit 是分数,定义为:
s i t = { 1000 − T m a x i f   i ∈ W T m a x               i f   i ∈ L \begin{equation} s^t_i=\left\{ \begin{array}{lc} 1000-T_{max} \quad if~i \in W\\ T_{max}~~~~~~~~~~~~~ \quad if~i \in L \end{array} \right. \end{equation} sit={1000Tmaxif iWTmax             if iL

经验池定义为所有轮次中所有智能体收集的经验的并集:
E = ∪ i , r E i r \mathop{E} = \mathop{\cup}\limits_{i, r} E^r_i E=i,rEir

s i ( r , t ) s^{(r, t)}_i si(r,t) 定义背后的直觉是鼓励智能体赢得比赛,并尝试快速赢得比赛,或者如果不能获胜,至少慢慢输掉比赛。初步实验表明,这个定义可以指导 LLMs 吸取经验,我们将把更复杂的评分函数的探索留给未来的工作。

提取建议。由于经验池 E E E 可以永久增长,而 LLMs 的最大上下文是有限的,因此我们建议根据代理的反映从 E E E 中检索经验子集,然后从子集中生成建议以填充到提示中(图 2 中的第 3 部分)。特别地,假设我们在新一轮的 t t t 天,代理 i i i 的反射是 R i t R^t_i Rit,我们首先基于反射 R i t R^t_i Rit E E E 中检索经验子集 E s u b E_{sub} Esub,如下所示:
E s u b = { ( R l , G l , s l ) ∣ c o s ( f ( R i t ) , f ( R l ) ) > ϵ } E_{sub} = \{(R_l, G_l, s_l) | cos (f(R^t_i), f(R_l)) > \epsilon\} Esub={(Rl,Gl,sl)cos(f(Rit),f(Rl))>ϵ}

其中 ( R l , G l , s l ) ∈ E (R_l, G_l, s_l) \in E (Rl,Gl,sl)E f ( ⋅ ) f(\cdot) f()表示一个 Sentence-BERT 模型, ϵ \epsilon ϵ 是阈值。初步实验表明,如果使用整个 E s u b E_{sub} Esub,性能可能会受到损害。原因是分数 s l s_l sl 定义背后的一个强有力的假设是胜利者的所有经历都是好的,而失败者的经历则不是。然而,这个假设在实践中可能并不成立。幸运的是,我们观察到, E s u b E_{sub} Esub 中得分最低的体验很可能是糟糕的体验,而 E s u b E_{sub} Esub 得分中位数附近的体验更有可能是好的体验 。因此,我们只利用来自 E E E 的这些经验。正式地,将得分最低的响应表示为 G 0 G_0 G0,将中位数附近得分的响应表示为 G 1 , G 2 , ⋅ ⋅ ⋅ , G n {G_1, G_2, ···, G_n} G1,G2,⋅⋅⋅,Gn,建议是用 LLM 提取的通过提示:
S i t = E x t r a c t ( G 0 , { G 1 , G 2 , ⋅ ⋅ ⋅ , G n } ) S_i^t = Extract(G_0, \{G_1, G_2, ···, G_n\}) Sit=Extract(G0,{G1,G2,⋅⋅⋅,Gn})

请注意,尽管 G 0 G_0 G0 往往是一种糟糕的体验,但智能体可以通过避免这种体验来学习。执行 Extract 的提示如下:“有一个不好的经历 { G 0 } \{G_0\} {G0},同时还有一组可能由好的经历组成的经历 { G 1 , G 2 , ⋅ ⋅ ⋅ , G n } \{G_1, G_2, ···, G_n\} {G1,G2,⋅⋅⋅,Gn},找出它们之间的差异,并从经验集中找出好的内容。”

4. 实验

4.1 设置

我们采用了一个名为 Chatarena (Wu et al., 2023b) 的最新框架来实现我们的设计,该框架允许连接多个 LLMs。 gpt-3.5-turbo-0301 模型用作我们的后端 LLM。说话顺序是随机确定的。我们设置窗口大小 K K K,即 ∣ O i t ∣ |O^t_i | Oit为 15。可以选择的预定义问题数 L L L 为 5,自由提问数 M M M 为 2。经验检索的阈值 ε ε ε 为 0.85,我们在提取建议时最多保留 50 条经验。此外,我们将 LLM 的温度设置为 0 以进行 CoT 推理,将 LLM 的温度设置为 0.3 以生成其他内容。

4.2 经验池建设

直观上,经验池的大小可能会对性能产生重大影响。因此,我们使用不同数量的游戏轮次构建经验池,包括 10 轮、20 轮、30 轮和 40 轮。对于每一轮,我们随机为 1 至 7 号玩家分配不同的角色,经验池会在轮次结束时更新。请注意,这些轮中的经验池用于评估目的,即图 2 中的第 3 部分被删除。

为了评估我们提出的借鉴经验的框架的效果,我们为村民、先知、守卫和女巫配备了经验池,而狼人则不允许利用这些经验池。通过这种方法,我们可以假设扮演狼人的智能体的性能水平保持不变,作为衡量其他智能体的性能水平的参考。

初步实验表明,图 2 所示的提示中提供的关于有效游戏策略的相对简单的基本人类先验,可以在从经验中学习的过程中充当引导机制。这表明进一步研究如何利用人类游戏玩法的数据来构建经验池是有价值的,我们将把它留作未来的工作。

4.3 使用体验分析

代理通过使用第 3.4 节中描述的方法生成的建议来利用经验。以下是摘录的建议示例:“在这种反思下,你最好的做法是根据你的观察和分析来投票杀死某人。”

为了研究建议的有效性,我们使用胜率来衡量遵循 AIWolf 的智能体的表现。此外,我们强调,如果一个智能体不足以击败更强大的智能体,那么坚持更长时间而不被淘汰也是一种更强的表现。因此,我们使用平均持续时间作为评估智能体能力的另一个指标。
在这里插入图片描述

图 3:从经验中学习的效果。所有图表中的虚线表示未使用经验的值。

我们将每个实验进行了 50 轮,结果如图 3 所示。总的来说,图 3a 表明,在大多数情况下,从经验中学习可能会导致村民方胜率的提高。

这表明我们的方法可以从使用经验中受益。此外,当使用 10 或 20 个历史回合的经验池时,对村民方的胜率和游戏持续时间都有显着的积极影响,这证明了我们方法的有效性。当配备 30 轮经验时,游戏持续时间明显更长(图 3b),尽管村民方的胜率没有明显变化。当从较大的 40 轮中学习时,村民方的胜率表现出稍微乐观的结果,但平均持续时间变短。

总之,一方面,我们的框架展现了从经验中学习的能力,而无需调整 LLMs 的参数。另一方面,当经验量相对较多时,我们的方法的有效性往往不稳定。随着历史经验量的增加,村民方的胜率并没有呈现出明显的趋势。我们推测,这可能部分归因于我们指导学习过程的方式,即通过简单的提示和启发式评分,导致监督信号稀疏和间接。因此,仍有改进的空间。

此外,在我们上述实验中,以狼人一方作为基准,一个关键假设是他们的能力保持不变。然而,我们的分析表明这个假设可能不成立。图 3c图 3d 分别显示了村民和狼人双方的平均伪装行为次数(定义见 5.3)的趋势。虽然村民可以从历史经验中学会欺骗,但狼人的行为也与不使用经验时相比有所提高,并随着经验的积累而变化。因此,当多个 LLM 参与多方博弈时,该 LLM 的能力也可能会随着其他 LLM 能力的变化而变化。我们相信这个结论在多 LLM 博弈中很重要,这也可以解释图 3a图 3b 中的趋势。

4.4 消融研究

为了验证我们方法中每个组成部分的必要性,我们进行了详细的消融研究,并进行了定性和定量分析。

4.4.1 定性分析

对于定性分析,我们删除了方法流程中的每个组件,并根据经验讨论它将如何影响模型输出。

  • 游戏规则和角色描述 Z Z Z:显然,这个元素是必要的。如果我们删除游戏规则提示,LLMs 可能不知道该怎么办。
  • 最近的消息 O O O:它们也是必要的。LLMs 主要根据这些最近的消息做出决定。
  • 信息性消息 V V V:我们在 A.1 节(表 1)中列出了一些信息性内容。如果删除这些信息性消息,代理输出将迅速降低。例如,代理可能会认为死去的玩家还活着,或者忘记其他已被发现的角色。
  • 选定和提出的问题 Q Q Q:这里 Q Q Q 和信息性消息 V V V 是唯二超过 LLM 上下文长度的信息来源。因此,这对于我们的方法来说是必要的。
  • 反思 R R R:首先,我们通过对现状的反思来保存历史经验。因此,从方法论的角度来看, R R R 是一个必要的组成部分。此外, R R R 还可以帮助智能体理清当前情况,从而提高决策效果。例如,如果我们删除表 4 中代理的反射(以及提取建议),则 CoT 和最终输出将如下:

我的逐步思考过程:
◦ 作为女巫,我想用我的毒瓶消灭一个我怀疑是狼人的玩家。
◦ 根据白天的讨论,玩家 4 投票杀了我,这让我怀疑他们是狼人。
◦ 但是,我还想考虑玩家 4 是犯了错误或受到其他玩家影响的村民的可能性。
◦ 我也会考虑其他玩家可能是狼人的可能性,并尝试消灭我或其他重要玩家。

我简洁的谈话内容:
◦ 我选择使用我的毒瓶来消灭玩家 4。

还有更多类似的例子。这种矛盾的推理过程可能源于缺乏对情况的总结。显然,情境反思是一个必要的组成部分。

  • 从经验 S S S 中提取的建议:其有用性在 4.3 节中分析。
  • 思维链提示 C C C:CoT 推理帮助 LLMs 们分解复杂的推理过程,做出一些内心的思考。如果删除 CoT(例如表 4),LLM 的最终输出将是:

◦ 我选择暂时放弃,把这瓶毒药留到稍后晚上,当我有更具体的证据证明玩家的狼人身份时。

事实上,消除 CoT 推理会导致决策能力减弱。如果没有 CoT 推理的后端,LLMs 通常无法表现得更好。

此外,预定义的问题集是否可以通过 LLMs 直接提问来证实?虽然 LLMs 可以提出貌似合理的问题,但他们很难提出对后续推理和决策更有帮助的问题。我们当然可以提供直接提问 LLMs 的例子,即自由提问 5 个问题,不包含问题集,LLMs 会输出这样的问题:有没有玩家透露自己的角色?是否有玩家表现可疑?预言家已经用他们的能力验证过任何玩家了吗?守卫有没有使用他们的能力来保护任何玩家?女巫是否使用过她们的能力来拯救或毒害任何玩家?

事实上,扮演不同角色的代理人提出的问题与上述问题非常相似。因此,有必要在决策过程之前注入一些人。在我们的实验中,我们为不同的角色设计了更有帮助和信息丰富的问题​​。它们至少对智能体决策有以下影响:

  • 回忆重要和关键的信息。当然,它们与角色相关。
  • 缓解幻觉和错误产生。例如,提示当前阶段和代理角色。
  • 帮助 LLMs 简化复杂的推理。例如,提醒代理预见暴露其角色的后果。
  • 模仿人类玩家的思维方式例如,推测其他代理的角色。

4.4.2 定量分析

对于定量分析,我们将整个方法与删除某一特定组件的变体进行比较。我们从变体模型输出中抽取了 50 个响应,并进行了人工评估。注释者需要判断输出是否合理。一些不合理的例子可能是产生幻觉、忘记他人的角色、采取反直觉的行为等。
在这里插入图片描述

图 4:合理产出的百分比。

图 4 表明我们的方法可以生成比任何其他变体更合理、更现实的响应。这表明我们方法的每个部分都是必要的。

5. 紧急战略行为

我们观察到 LLMs 表现出一些在游戏规则或提示中没有明确预编程的策略行为。这些行为分为四类,包括信任对抗伪装领导。我们将在下面的四小节中分别介绍它们。

值得注意的是,为了考察涌现的策略行为是否源于 LLM 的训练数据,我们尝试将提示中的角色名称修改为不相关的角色名称(例如将 “狼人” 改为 “漂亮女孩”),甚至是那些具有相反语义的意思。实验表明类似的战略行为仍然存在。为了便于阅读,我们将仅显示带有原始角色名称的结果。

5.1 信任

“信任” 是指相信其他玩家与自己有共同的目标,并且他们会按照这些目标行事。例如,玩家可能会主动分享对自己不利的信息,或者在某些时刻与其他玩家共同指责某人是自己的敌人。LLMs 表现出的有趣行为是,他们倾向于基于某些证据来信任他人,而不是盲目跟随他人。也就是说,他们根据自己的推理来决定是否信任,在群体游戏中展现出独立思考的能力。

为了研究玩家的信任行为在整个游戏过程中如何变化,我们定义了一个信任关系表来可视化不同阶段玩家之间信任的建立。这是一个包含 7 行和 7 列的表 T T T,如果玩家 i i i 的谈话内容表现出对玩家 j j j 的信任,则 T ( i , j ) = 1 T (i, j) = 1 T(i,j)=1附录 A.3 中提供了一些信任行为示例。
在这里插入图片描述

图 5:信任关系表。上面的子表不使用历史经验,下面的子表使用 20 轮历史经验。黄色球代表已建立的信任关系,黄色虚线圆圈代表先前存在的信任关系的解除。

图 5 显示了两个信任关系表。上表对应于未使用经验池的回合,而下表对应于使用由 20 回合游戏构建的经验池的回合。两轮比赛持续时间均为 5 天。

在利用 20 轮历史经验时,LLMs 似乎更倾向于建立信任关系,尤其是双向信任。事实上,及时建立必要的信任关系对于促进游戏胜利至关重要。这可能是利用经验提高胜率的原因之一(第 4.3 节)。

5.2 对抗

“对抗” 是指玩家为了两个阵营的对立目标而采取的行动。例如,在夜间明确攻击他人为狼人,或在白天指责他人为狼人,都属于对抗行为。具有特殊能力的角色为保护自己而采取的行动也属于对抗行为。

以下是白天的通讯短片:

P1(狼人):我投票淘汰 P5。
P3(守卫):我选择通过。
P5(村民):我选择通过。

我们可以看到狼人想要带领其他玩家消灭一个无辜的玩家。相反,其他玩家并不只是跟随狼人,而是根据自己的判断表达不同意见。这种行为使狼人难以实现其目标,代表了一种隐性对抗的形式。

下面是另一个晚上的片段:

P1(狼人):我选择再次消灭 P5。
P3(守卫):我选择保护 P5。

由于玩家 1 的不合作和攻击性行为引起了人们的关注,现在可能有一些玩家怀疑它是狼人。因此,拥有强大防御能力的守卫在接下来的一晚选择了保护玩家1之前的目标。由于目标可能是其队友,守卫选择协助目标对抗狼人的攻击。狼人的攻击和其他玩家的防御也可以被视为对抗行为。

5.3 伪装

“伪装” 是指隐瞒身份或者误导他人的行为。在信息不完整的竞争环境中,模糊身份和意图可以提高生存能力,从而有助于实现游戏目标。因此,伪装是一项重要的技能。然而,这不仅仅是要保密其身份或不谈论他们的角色。

P1(狼人):大家早上好!我注意到这是一个平静的夜晚,没有人被淘汰。作为一个村民,我现在没有什么可以分享的。我希望你告诉我更多。

在上面的例子中,我们可以看到狼人自称是村民。这种行为掩盖了自己的真实身份,有效地欺骗了他人的信任,增加了自身的安全。事实上,不仅狼人会伪装成村民,预言家、女巫等重要角色也经常伪装成村民,以确保自己的安全。

此外,LLMs 可能会编造实际不存在的事件来实现其目标,如下面的白天示例所示。

预言家已确认玩家 1 是狼人。
P2(先知):我注意到 P1 正在积极说话,所以 P1 可能是狼人。

事实上,预言家在夜间无法得到其他人的反应。所以说的都是假的。然而,它可以向队友传达有关狼人的信息,同时又不会以这种方式暴露自己的角色。

可以认为,伪装只是 LLMs 产生的幻觉。然而,我们认为,大多数此类行为不是幻觉,而是理性行为。我们在附录 A.4 中深入探讨了哪些行为应该被归类为幻觉,哪些行为不应该被归类。

5.4 领导力

“领导力” 是指影响其他玩家、试图控制游戏进程的行为。例如,狼人可能会建议其他人按照狼人的意图行事。

P1(狼人):大家早上好!我对这个宁静的夜晚一无所知。先知能告诉我们更多关于狼人是谁的事吗?然后,P5 诬告 P3 是狼人。
P4(狼人):我同意 P5。根据我的观察,我也认为 P3 是狼人。让我们投票消灭他,保护村民!

呼吁采取行动和提供指导更有可能获得他人的支持。如上例所示,狼人要求预言家揭露其身份,这可能会导致其他代理与伪装的狼人站在一起。这种影响他人行为的努力凸显了 LLMs 所展现的迷人的社会属性。这些行为与人类的行为相似。

6. 相关工作

玩游戏。近年来,人们在游戏人工智能方面投入了大量精力。Silver 等人(2017,2018)证明,具有完整信息的两人零和博弈,例如围棋和国际象棋,可以通过自博来解决。并且在一些不完全信息游戏中实现了超人的表现,例如单挑扑克(Bowling et al., 2015;Brown and Sandholm, 2018)。然而,这些方法缺乏处理语言的能力,而这在《狼人杀》和《外交》等交流游戏中非常依赖。虽然已经开发了各种狼人智能体,但它们主要依赖于基于规则的系统或说话模板(Osawa et al., 2014; Wang and Kaneko, 2018; Shibata et al., 2023),这限制了语言的表达能力游戏。FAIR 等人(2022)和 Kramár 等人(2022)在外交方面取得了有希望的结果,但他们的方法需要大量的人类数据,并且是专门针对游戏量身定制的。相比之下,这项工作致力于探索大型语言模型(LLM)在玩交流游戏中的潜力,并观察策略行为的出现。通过这种探索,我们渴望激发解决交流游戏的新方法。

与 LLMs 一起学习。由于计算成本和训练数据的高要求,诸如微调(Dai 和 Le,2015)和参数高效调整(Houlsby 等,2019)等 LLMs 学习的常见方法在实践中很难执行。此外,许多优秀的 LLMs 并没有公开他们的检查点,因此基于参数的学习是不可行的。通过即时工程指导 LLMs 最近引起了更多关注。一些典型的基于提示的作品(Yao et al., 2022; Wu et al., 2023a)忽视了从历史经验中学习的能力。 Wang 和 Li (2023) 在简单任务中具有学习能力,需要密集的监督信号。由于监督信号非常稀疏,它不能直接用于狼人游戏。辛恩等人(2023)和 Fu 等人(2023)是与我们最相似的作品。然而,前者无法借鉴跨轨迹的经验。后者仅针对两人场景而设计。

7. 结论和未来工作

本文设计了一个通信游戏框架,以《狼人杀》为代表案例探讨其可行性。此外,我们研究历史经验如何影响 LLMs 的能力。有趣的是,我们观察到 LLMs 在游戏过程中的非预先编程的紧急策略行为,例如信任、对抗、伪装和领导力。

我们还指出,尽管我们早期研究使用 LLMs 构建通信游戏代理,但在这个方向上仍然有许多值得进一步研究的问题。首先,如何使 LLM 掌握先进的游戏技术,例如教授人类玩家经验或自主游戏此外,如何构建不变基线(见 4.3)来评估多 LLM 设置的能力,是一个非常有吸引力的方向。最后,最大限度地减少幻觉的影响并促进其在现实世界的场景是最实用、最有价值的工作。对于未来的工作,我们打算将我们的方法应用到更广泛的游戏中,并进一步增强其游戏能力。

局限性

尽管我们已经证明我们的方法具有玩交流游戏的潜力,但仍然存在一些局限性。首先,幻觉(Ji et al., 2023)会影响生成内容的真实性,并可能对推理能力产生负面影响。那么,历史经验的利用空间可能更大,比如减轻噪音的不利影响、利用跨游戏的通用经验等。此外,我们在这项研究中没有纳入来自人类玩家的经验池。在未来的研究中,我们将探索更强大的利用经验的策略,并增强我们与人类表现进行比较的方法。

### Chain-of-Thought Prompting Mechanism in Large Language Models In large language models, chain-of-thought prompting serves as a method to enhance reasoning capabilities by guiding the model through structured thought processes. This approach involves breaking down complex problems into simpler components and providing step-by-step guidance that mirrors human cognitive processing. The creation of these prompts typically includes selecting examples from training datasets where each example represents part of an overall problem-solving process[^2]. By decomposing tasks into multiple steps, this technique encourages deeper understanding and more accurate predictions compared to traditional methods. For instance, when faced with multi-hop question answering or logical deduction challenges, using such chains allows models not only to generate correct answers but also articulate intermediate thoughts leading up to those conclusions. Such transparency facilitates better interpretability while improving performance on various NLP benchmarks. ```python def create_chain_of_thought_prompt(task_description, examples): """ Creates a chain-of-thought prompt based on given task description and examples. Args: task_description (str): Description of the task at hand. examples (list): List containing tuples of input-output pairs used for demonstration purposes. Returns: str: Formatted string representing the final prompt including both instructions and sample cases. """ formatted_examples = "\n".join([f"Input: {ex[0]}, Output: {ex[1]}" for ex in examples]) return f""" Task: {task_description} Examples: {formatted_examples} Now try solving similar questions following above pattern. """ # Example usage examples = [ ("What color do you get mixing red and blue?", "Purple"), ("If it rains tomorrow, will we have our picnic?", "No") ] print(create_chain_of_thought_prompt("Solve logic puzzles", examples)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值