PolicyEvol-Agent:通过环境感知和自我意识利用心智理论进行策略演化

俞亚杰,冯越
计算机科学学院
伯明翰大学
英国
yajieyu46@gmail.com, y.feng.6@bham.ac.uk

摘要

多智能体在具有大型语言模型(LLMs)的实际世界模拟中表现出显著的智能,这得益于其社会认知和知识检索能力。然而,目前对于配备有效认知链(包括推理、规划、决策和反思)的智能体的研究仍然有限,特别是在动态交互场景中。此外,与人类不同的是,基于提示的响应在不确定的游戏过程中面临心理状态感知和经验校准的挑战,这不可避免地会导致认知偏差。鉴于上述情况,我们提出了PolicyEvol-Agent,这是一个全面的LLM赋能框架,其特点在于系统地获取他人的意图,并适应性地优化非理性策略以实现持续改进。具体而言,PolicyEvol-Agent首先获得反思性的专业知识模式,然后将一系列认知操作与心智理论相结合,从内部和外部视角进行整合。仿真结果表明,与基于强化学习(RL)的模型和基于智能体的方法相比,PolicyEvol-Agent在最终游戏胜利方面具有优越性。此外,策略演化机制揭示了在自动评估和人工评估中动态指南调整的有效性。 1 { }^{1} 1

1 引言

基于大型语言模型(LLMs)的最新成果展示了其在问题解决和实际世界模拟任务中的显著潜力,这归功于其语言理解和文本生成能力(Chowdhery等,2023;Li等,2023a;Zeng等,2023;Touvron等,2023;Achiam等,2023;Wu等,2024b;DeepSeekAI等,2025)。因此,在更加复杂的环境中实施具备高级技能的自主LLM智能体已成为持续关注的焦点(Yao等,2023;Wei等,2022a;Schick等,2023;Shen等,2024;Hong等,2024)。这些能力通常符合人类对感知周围环境并响应复杂需求的期望。

尽管LLMs表现出色,但构建一个强大的基于LLM的多智能体以应对多样且复杂的模拟游戏仍然是一个具有挑战性的任务。首先,各种游戏模拟复杂且信息动态不完整,这意味着需要付出巨大努力来开发认知链(Bateni和Whitehead,2024;Guo等,2024;Gallotta等,2024)。一般来说,许多游戏模拟任务涉及协作和协调,超出了单一智能体的能力范围。其次,大多数基于LLM的智能体无法通过事后偏差反思全面进化策略,而人类在这种情况下可以灵活调整策略以避免类似的决策错误。事实上,在动态信念生成阶段,对过去轨迹的迭代反思在心理判断其他玩家方面起着至关重要的作用(Xi等,2024;Zhang等,2024;Yuan等,2024)。第三,许多基于LLM的游戏智能体通过孤立反馈(例如,环境观察或自我意识)增强心理感知,减少了多方面的评估,而人类则可以探索内外部信念(Xi等,2024;Tao等,2024;Song等,2024)。

为了解决上述问题,近年来出现了越来越多的趋势,即在不同游戏设置的沙盒环境中依赖自然语言通信开发智能体框架(Zhu等,2023;Lan等,2023;Gong等,2024;Mao等,2025)。这些研究测试或探索了各种博弈论假设,包括推理、合作、说服、欺骗、领导力等。

我们注意到,在不完全信息游戏中,人类通过结合大量记忆、策略、信念和计划进行合理操作,所有这些构成了他们独特的特征和行为模式。通过与信念、计划和行动协调,人类可以逐步形成全局行为策略,以在不确定性场景中引导真实的游戏决策。为了将人类能力迁移到LLMs上,可以使用心智理论(ToM)来推断环境不确定性并理解他人意图。这种认知模式为我们提出的游戏智能体处理复杂任务提供了某些见解(Premack和Woodruff,1978a;Kim等,2023;Li等,2023b;Guo等,2023;Wu等,2024a)。关于LLM和ToM的更详细工作可参考附录C。

本文中,我们引入了PolicyEvol-Agent,这是一种新颖的方法,可以通过与对手互动并在对抗游戏中仅根据个人条件和公共观察来提升行为模式。具体而言,为了与人类操作一致,我们利用ToM作为包含策略演变、推理、规划、决策和反思的认知过程链。我们的LLM智能体不仅可以在游戏中不断优化潜在的行为策略,还可以在动态交互环境中获得自身和环境(即其他玩家)的状态感知。一方面,策略演变机制赋予了无需参数调整即可根据过去轨迹自主反思校正专业知识偏差的能力。另一方面,决策最终基于对内外部反馈的反应。我们在图1中展示了PolicyEvolAgent在游戏中的认知过程实例。

在Leduc Hold’em(Southey等,2005)上的实验表明,与传统和基于智能体的模型相比,PolicyEvol-Agent在游戏胜率方面具有优势。它还展示了在整个游戏中无需人类指导的策略演变的优势。

本工作的贡献总结如下:

  • 我们提出了PolicyEvol-Agent,一个涵盖记忆、推理、规划、决策和反思的框架,适用于动态和不完全信息游戏。
    • 策略演变机制通过整合游戏经验和迭代更新指令,为调整模式指明正确方向铺平道路,鼓励从新手向精英的转变。
    • 我们引入了多方面信念生成(即自我意识和环境感知),增强了提供合理计划和做出可行决策的能力。
    • 我们提出的PolicyEvol-Agent在不完全信息游戏中击败了所有强大的基线。它展现了战略性的人类行为,例如虚张声势、欺骗和灵活弃牌。

2 问题定义

在具有不完全信息的动态交互游戏中,玩家需要从有效的动作列表中选择理性动作以实现最终胜利,而无需知道对手的状态。一般来说,可以从某个玩家的角度来描述游戏过程。给定
img-1.jpeg

图2:PolicyEvol-Agent及其四个模块的详细说明。每个模块都附有其认知操作和示例输出。
环境集 E \mathcal{E} E和特定游戏过程 e ∈ E e \in \mathcal{E} eE,当前观察 o i ∈ O o_{i} \in \mathcal{O} oiO要么在游戏开始时初始化 ( i = 1 ) (i=1) (i=1),要么由前几轮的反馈诱导 ( i > 1 ) (i>1) (i>1),然后在玩家执行动作 a i ∈ A a_{i} \in \mathcal{A} aiA之前,其中 O \mathcal{O} O A \mathcal{A} A分别是观察空间和动作空间。一旦 a i a_{i} ai是基于多方面观察和系统分析产生的,其他玩家会依次对他作出反应,接下来的新观察 o i + 1 o_{i+1} oi+1继续进行。轨迹表示为 t = ( o 1 , a 1 , … , o i , a i , … ) t=\left(o_{1}, a_{1}, \ldots, o_{i}, a_{i}, \ldots\right) t=(o1,a1,,oi,ai,),通过上述重复不断扩大直到游戏 e e e结束。

一般来说,基于LLM的智能体预计可以通过在面对对手牌的不确定性时进行推理、规划和决策操作,从而促进从观察到动作的转换。目标是通过最大化奖励函数 r ( t ∣ e ) r(t \mid e) r(te)找到最佳轨迹:

argmax ⁡ t r ( t ∣ e ) = ∏ i π ∗ ( a i ∣ o i , h i ) \underset{t}{\operatorname{argmax}} r(t \mid e)=\prod_{i} \pi^{*}\left(a_{i} \mid o_{i}, h_{i}\right) targmaxr(te)=iπ(aioi,hi)

其中动作 a i a_{i} ai是通过最优策略 a i ∼ π ∗ ( ⋅ ∣ o i , h i ) . h i a_{i} \sim \pi^{*}\left(\cdot \mid o_{i}, h_{i}\right) . h_{i} aiπ(oi,hi).hi表示LLM在第 i i i步提供的中间认知过程。

本文中,我们的研究重点是Leduc Hold’em模拟,这是一种双人不完全信息游戏,并探索了策略演变在多个游戏中逐步优化 π ∗ ( ⋅ ∣ o i , h i ) \pi^{*}\left(\cdot \mid o_{i}, h_{i}\right) π(oi,hi)的潜力。

3 方法

PolicyEvol-Agent的概述如图2所示。这个创新的智能体无需额外训练,包含四个主要模块:观察解释、策略演变、多方面信念生成和计划推荐。为了增强环境和自我感知,我们将心智理论(ToM)集成到后三个模块中。

3.1 观察描述和规则理解

状态解释旨在借助LLM的可解释性将游戏状态转换为描述性上下文。提示指令包括初始状态信息、观察规则和游戏规则,将当前情况转换为可读的综合文本。

一些研究(Zha等,2019;Zhao等,2023;Guo等,2023)报告称,游戏状态在大多数不完全信息游戏中被表示为低级变量,例如字典。一般来说,原始变量同时告知私人和公共牌以及有效动作列表等。然而,这些很难理解。因此,提供了观察规则以对游戏状态给出结构化解释。观察规则指令可以概括如下:
(1) 解释:详细说明输入变量类型,例如字典、列表或其他格式以描述输入元素名称的意义,例如"valid_action_list"代表智能体可采取的动作;(2) 元素描述:介绍每个元素的表示方法,例如{“valid_action_list” : [“raise”,“fold”,“call”]}意味着智能体可以选择加注、弃牌或跟注;(3) 转换提示:更多关于将低级游戏状态转换为文本的指南,例如SJ表示黑桃J,HK表示红心K。

游戏规则用作增强LLM对全景游戏介绍的理解手段,指令包括一般规则、动作介绍、回报原则和胜负规则:
(1) 一般规则:简要游戏介绍(包括回合数和投注规则):牌组只包含两张国王、皇后和杰克,总共六张牌;(2) 动作描述:每个动作的介绍:玩家可以选择四种动作:加注、跟注、过牌和弃牌,加注动作是[动作描述];(3) 单局胜负规则:单局获胜、失败或平局的要求:手中牌与公共牌同等级的玩家获胜;(4) 胜负回报规则:单局获胜或失败的奖励或惩罚:总底池的一半;(5) 整体胜负规则:游戏数量和整体胜负要求:你希望在100局游戏后比原始筹码更多。

通过运用游戏规则和转换规则,低级游戏状态可以有效地转换为可读文本(记为 O b s O b s Obs)。此过程与人类偏好一致,因此增强了当前状态的可理解性。每个元素 O b s [ j ] O b s[j] Obs[j]在生成文本中的条件分布可以建模为:

O b s ∼ ∏ j = 1 L L L M θ ( O b s [ j ] ∣  Prompt, Rules,  O b s [ 0 , 1 , ⋯   , j − 1 ] ) \begin{gathered} O b s \sim \prod_{j=1}^{L} L L M_{\theta}(O b s[j] \mid \text { Prompt, Rules, } \\ O b s[0,1, \cdots, j-1]) \end{gathered} Obsj=1LLLMθ(Obs[j] Prompt, Rules, Obs[0,1,,j1])

其中 L L M θ ( ⋅ ) L L M_{\theta}(\cdot) LLMθ()是由 θ \theta θ参数化的大型语言模型, L L L表示文本元素的长度。

观察解释促进了游戏环境中的可理解交互。详细的转换文本示例可参考附录D.1。

3.2 通过记忆和反思进行演化

在最初的几场比赛中,很难辨别对手的行为模式并形成自己的游戏倾向。例如,智能体需要探索对手是否在虚张声势,并采取保守或激进的反应以做出更好的决策。然而,大多数智能体无法灵活调整策略,缺乏对环境和自我的理解随着游戏的进行。

受人类玩家启发,我们引入了策略演变机制,其特点是通过整合游戏历史和反思动态调整策略。假设在之前的游戏中已经获得了某种策略,策略演变模块旨在通过即时反馈校正策略的概率偏差,而非从头生成。

全景策略是不同条件概率分布的组合,可以表述为:

 Policy  ∼ ∏ m = 1 , n = 1 M , N P ( a m ∣ c n ) \text { Policy } \sim \prod_{m=1, n=1}^{M, N} P\left(a_{m} \mid c_{n}\right)  Policy m=1,n=1M,NP(amcn)

其中 a m a_{m} am是第 m m m个动作, c n c_{n} cn表示第 n n n种牌型, M M M N N N分别表示合法动作的数量和牌型的数量。演化的目的是通过反思游戏中不合理的决策来微调 P ( a m ∣ c n ) P\left(a_{m} \mid c_{n}\right) P(amcn),直到收敛。如图2所示,我们将演化过程总结为三个步骤:检测、评估和修正。

给定特定的旧策略概率 P old  ( a m ∣ c n ) P_{\text {old }}\left(a_{m} \mid c_{n}\right) Pold (amcn)和更新的游戏历史,智能体首先计算检测概率 P detect  ( a m ∣ c n ) P_{\text {detect }}\left(a_{m} \mid c_{n}\right) Pdetect (amcn),即:

P detect  ( a m ∣ c n ) = P ( a m , c n ∣  History  ) P ( c n ∣  History  ) P_{\text {detect }}\left(a_{m} \mid c_{n}\right)=\frac{P\left(a_{m}, c_{n} \mid \text { History }\right)}{P\left(c_{n} \mid \text { History }\right)} Pdetect (amcn)=P(cn History )P(am,cn History )

其中 P ( a m , c n ∣ P\left(a_{m}, c_{n} \mid\right. P(am,cn 历史记录) 和 P ( c n ∣ P\left(c_{n} \mid\right. P(cn 历史记录) 可以统计得出。

如果 P old  ( a m ∣ c n ) P_{\text {old }}\left(a_{m} \mid c_{n}\right) Pold (amcn)与游戏记忆显示的内容不一致(即, P old  ≠ P detect  P_{\text {old }} \neq P_{\text {detect }} Pold =Pdetect ),则使用具备ToM能力的LLM基于反思建议评估 a m a_{m} am c n c_{n} cn的可行性,如下所示:

P ( a m , c n ∣  Reflection  ) = L L M T o M ( P old  ( a m ∣ c n ) ,  History, Reflection  ) \begin{gathered} P\left(a_{m}, c_{n} \mid \text { Reflection }\right)=L L M_{T o M}( \\ P_{\text {old }}\left(a_{m} \mid c_{n}\right), \text { History, Reflection }) \end{gathered} P(am,cn Reflection )=LLMToM(Pold (amcn), History, Reflection )
其中 P o l d ( a m ∣ c n ) P_{o l d}\left(a_{m} \mid c_{n}\right) Pold(amcn)充当不合理推导的指标,而Reflection包括对手每一步的动机和自身的得失。游戏反思指出优秀的或不合理的动作,这为演化的方向铺平了道路。游戏历史可以轻松获得,然而最重要的是回顾并获得经验教训,特别是当对手的私牌被揭示时。反思文本由以下方式生成:

 Reflection  = L L M θ (  History  ) \text { Reflection }=L L M_{\theta}(\text { History })  Reflection =LLMθ( History )

L L M T o M LLM_{ToM} LLMToM的详细指令包括:(1) 旧策略:包括偏斜的自我模式和环境模式:对手是激进/保守的,代理倾向于在拥有不同牌型时采取行动;(2) 以往游戏反馈:游戏历史总结,胜负原因及改进建议:代理哪里做错了或做对了,如果换成另一个动作是否会赢得更多筹码。

实际上,策略演化的第二步涉及两个部分:环境模式评估和自我模式评估。环境模式源于经验,而自我模式还需考虑新的环境模式,这符合现实世界的直觉。因此,公式5可以进一步阐述并分为以下内容:

 Patt  Env  = L L M ToM  (  Prompt  patt   Rules, History, Reflection,  P old  ,  Obs)   Patt  Self  = L L M ToM  (  Prompt  patt  ,  Patt  Env   Rules, History, Reflection,  P old  ,  Obs)  \begin{aligned} & \text { Patt }_{\text {Env }}=L L M_{\text {ToM }}\left(\text { Prompt }_{\text {patt }}\right. \\ & \text { Rules, History, Reflection, } P_{\text {old }}, \text { Obs) } \\ & \text { Patt }_{\text {Self }}=L L M_{\text {ToM }}\left(\text { Prompt }_{\text {patt }}, \text { Patt }_{\text {Env }}\right. \\ & \text { Rules, History, Reflection, } P_{\text {old }}, \text { Obs) } \end{aligned}  Patt Env =LLMToM ( Prompt patt  Rules, History, Reflection, Pold , Obs)  Patt Self =LLMToM ( Prompt patt , Patt Env  Rules, History, Reflection, Pold , Obs) 

其中Prompt patt  _{\text {patt }} patt  是模式提示, P old  P_{\text {old }} Pold  表示先前策略。 L L M T o M ( ⋅ ) LLM_{T o M}(\cdot) LLMToM() 表示带有ToM推理的大型语言模型,类似于Suspicion-Agent (Guo et al., 2023) 和 Agent-Pro (Zhang et al., 2024)。Patt Env  _{\text {Env }} Env  描述了对手在特定牌型下的动作,并得出其总体性格(激进或保守)。另一方面,Patt self  _{\text {self }} self  是对Patt Env  _{\text {Env }} Env  的回应,包括是否虚张声势以及在不同条件下的动作倾向。

在联合评估动作和牌型后(见公式5),最终修订的策略由以下公式计算得出:

P new  ( a m ∣ c n ) ≈ P ( a m , c n ∣  Reflection  ) P ( c n ∣  History  ) P_{\text {new }}\left(a_{m} \mid c_{n}\right) \approx \frac{P\left(a_{m}, c_{n} \mid \text { Reflection }\right)}{P\left(c_{n} \mid \text { History }\right)} Pnew (amcn)P(cn History )P(am,cn Reflection )

P new  P_{\text {new }} Pnew  不仅提供了信念推断的指南(见第3.3节),还作为继承框架用于下一局策略修改,只需替换不合理的推导。策略演化的提示模板可在附录D.2中找到。

3.3 环境和自我意识信念生成

在长期互动过程中做出决策之前,确保信念的合理性是必要的。考虑到在不完全信息游戏中心智理论(ToM)推理,PolicyEvol-Agent被指示基于先验观察和修订后的策略探索潜在信息。换句话说,这一过程旨在通过

P ( c n ∣ O b s ) ≈ P ( c n , a m ∣  History  ,  Obs  ) P ( a m ∣ c n ,  Policy  ) P\left(c_{n} \mid O b s\right) \approx \frac{P\left(c_{n}, a_{m} \mid \text { History }, \text { Obs }\right)}{P\left(a_{m} \mid c_{n}, \text { Policy }\right)} P(cnObs)P(amcn, Policy )P(cn,am History , Obs )

精确估计条件概率 P ( c n ∣ O b s ) P\left(c_{n} \mid O b s\right) P(cnObs),其中 P ( a m ∣ c n P\left(a_{m} \mid c_{n}\right. P(amcn, Policy ) ) )表示直接从校准策略中检索的知识。

类似于策略演变模块,信念感知包括自我意识和环境推理。借助 L L M T o M ( ⋅ ) LLM_{T o M}(\cdot) LLMToM(),两部分Belief Env  _{\text {Env }} Env 和Belief Self  _{\text {Self }} Self 可以表述为:

 Belief  Env  = L L M ToM  (  Prompt  belief   Rules, Reflection, Patt  Env  ,  Obs)   Belief  Self  = L L M ToM  (  Prompt  belief  ,  Rules   Reflection, Patt  Self  ,  Belief  Env  ,  Obs)  \begin{gathered} \text { Belief }_{\text {Env }}=L L M_{\text {ToM }}\left(\text { Prompt }_{\text {belief }}\right. \\ \text { Rules, Reflection, Patt }_{\text {Env }}, \text { Obs) } \\ \text { Belief }_{\text {Self }}=L L M_{\text {ToM }}\left(\text { Prompt }_{\text {belief }}, \text { Rules }\right. \\ \text { Reflection, Patt }_{\text {Self }}, \text { Belief }_{\text {Env }}, \text { Obs) } \end{gathered}  Belief Env =LLMToM ( Prompt belief  Rules, Reflection, Patt Env , Obs)  Belief Self =LLMToM ( Prompt belief , Rules  Reflection, Patt Self , Belief Env , Obs) 

其中Prompt belief表示基于LLM的信念推理提示模板。Patt Env  _{\text {Env }} Env 和Patt Self  _{\text {Self }} Self 的参与为检索增强信念提供了见解。类似于第3.2节,Belief Env  _{\text {Env }} Env 是Belief Self  _{\text {Self }} Self 的基础。Belief Env  _{\text {Env }} Env 和Belief Self  _{\text {Self }} Self 的关键信息总结如下内容:
(1) 环境信念:牌型及其概率,以及对手的最佳可能组合;(2) 自我意识信念:当前目标和长期目标的优势和劣势及其概率。

我们还在图2的信念推理模块中提供了一个信念示例。显然,由于这些基于信念的合理和可靠计划,PolicyEvol-Agent将提供更合理的计划(见第3.4节)。信念生成提示模板可在附录D.3中查看。

3.4 带概率的计划推荐

在全面观察和理性信念的指导下,LLM能够推荐附加胜率的计划。基于合法动作列表,LLM用于通过计算潜在筹码收益的期望来评估每个动作,然后将这些概率汇总成具体指令。为了增强交互智能体的可控性,我们还引入了一条批评指令以选择提案并向角色扮演智能体提供反馈。我们提示LLM制定基于文本的计划如下:

[  Plans, Plan  Best  ] = L L M ToM  ( O b s , [  Belief  Eve  ,  Belief  Self  ] ,  Reflection  \begin{gathered} {\left[\text { Plans, Plan }_{\text {Best }}\right]=L L M_{\text {ToM }}\left(O b s,\right.} \\ {\left[\text { Belief }_{\text {Eve }}, \text { Belief }_{\text {Self }}\right], \text { Reflection }} \end{gathered} [ Plans, Plan Best ]=LLMToM (Obs,[ Belief Eve , Belief Self ], Reflection 

推荐的计划展示如下:
(1) 计划1:当我加注时,对手牌型为[牌型],平均胜率为[概率];(2) 计划2:当我跟注时,对手牌型为[牌型],平均胜率为[概率];(3) 计划3:当我弃牌时,对手牌型为[牌型],平均胜率为[概率];最佳计划:选择最佳计划并解释原因:计划2(跟注)最佳,因为它从激进/保守的角度来看胜率最高。

然后动作可以通过以下方式触发:

a i = L L M θ ( O b s , [  Plans, Plan  Best  ] ) a_{i}=L L M_{\theta}\left(O b s,\left[\text { Plans, Plan }_{\text {Best }}\right]\right) ai=LLMθ(Obs,[ Plans, Plan Best ])

其中 a i a_{i} ai表示第 i i i步动作。

4 实验

4.1 任务和数据集

为了展示PolicyEvolAgent在仅能访问自身和公共信息而不了解他人状态的不完全信息环境中的表现,我们选择了Leduc Hold’em作为实验游戏,并使用RLCard框架(Zha等,2019)。作为简化版的限注德州扑克,Leduc Hold’em有四种可选动作:加注、跟注、弃牌和过牌。信息集的数量约为 1 0 2 10^{2} 102,单个信息集中状态的平均数量为 1 0 2 10^{2} 102。详细的游戏介绍包括游戏规则和胜负规则可参见附录B。

我们基于开源语言模型qwen-max(Bai等,2023;Yang等,2024)进行模拟实验以与其他智能体对手竞争。按照Southey等(2005);

Guo等(2023),我们选择二阶ToM进行推理、规划和决策操作。每局游戏结束后,对手的牌会被揭示以更好地反思游戏历史。

4.2 基线

我们选择了一系列传统的算法和基于智能体的模型作为竞争对手。所有这些角色扮演方法都表现出人类水平的适应能力。Suspicion-Agent(Guo等,2023)是一种最先进的模型,与其他方法相比作为上限。据我们所知,Suspicion-Agent是第一个针对Leduc Hold’em的文本导向智能体,无需特定训练,它集成了ToM推理、规划和决策能力以影响玩家行为。其他传统算法包括NFSP(Heinrich和Silver,2016)、DQN(Mnih等,2015)、深度蒙特卡洛搜索(DMC)(Zha等,2021)和CFR(Zinkevich等,2007)。NFSP和DMC基于自我对弈,专门开发用于不完全信息游戏。DQN允许强化学习智能体直接从高维感官输入中学习策略。而CFR是一种基于博弈论的方法。它们各自在不完全信息游戏中具有潜在的决策能力。

4.3 评估指标

为了评估PolicyEvol-Agent的性能,随机抽取100个新的投注游戏手牌并分配给双方在游戏中对决,然后统计剩余的总筹码以确定最终胜利。策略在100局游戏中持续微调。我们在附录C中调查了与游戏智能体相关的各种评估指标,本文的评估方法遵循Guo等(2023)。

4.4 主要结果

如表1所示,我们报告了基于LLM的PolicyEvol-Agent与其他玩家(NFSP、DQN、DMC、CFR和SuspicionAgent)对决后的最终筹码。为了更好的对比,我们还通过文本ttqwenmax重新生成了Suspicion-Agent与其他方法对决的结果。结果表明我们的模型在游戏模拟场景中具有优越性。

PolicyEvol-Agent在众多方法包括基于RL的算法和其他最先进方法中获得了显著的筹码。

智能体模型
平均值胜率
NFSPDQNDMCCFRSuspPolicyEvol
NFSP--33-22-45-96-123-63.8 0 % 0 \% 0%
DQN+33--55-20-7-21+14 20 % 20 \% 20%
DMC+22+55-+16-22-12+11.8 60 % 60 \% 60%
CFR+45+20-16-+15-35+5.8 60 % 60 \% 60%
Susp (GPT 3.5)+3-200+49-73---55.25 50 % 50 \% 50%
Susp (GPT 4)+142+45+24+37--+62 100 % 100 \% 100%
Susp (qwen)+96+7 + 22 \mathbf{+ 2 2} +22-15--41+13.8 60 % 60 \% 60%
PolicyEvol (qwen) + 123 \mathbf{+ 1 2 3} +123 + 21 \mathbf{+ 2 1} +21+12 + 35 \mathbf{+ 3 5} +35 + 41 \mathbf{+ 4 1} +41- + 46.4 \mathbf{+ 4 6 . 4} +46.4 100 % \mathbf{1 0 0 \%} 100%

表1:PolicyEvol-Agent在Leduc Hold’em环境中与其他方法对决100局后的表现。结果报告了每种方法玩完后的总胜/负筹码,每局游戏的胜/负筹码范围为1到14。“Susp”表示Suspicion-Agent。

策略
CFRDMCSuspicion
我们的+35+12+41
-无策略+6-23-28
-无信念-13-30-21
-无计划-21-56-44
-无反思-7-16+19

表2:PolicyEvol-Agent在与CFR、DMC和Suspicion-Agent对决时,无策略、无信念、无计划或无反思的表现比较。结果报告了在Leduc Hold’em环境中对决100局后的总胜/负筹码。

基于LLM的智能体。我们观察到,使用qwen-max的PolicyEvolAgent超越了表1中列出的所有方法。特别是,在100次随机游戏模拟后,它以大比分(41筹码)击败了使用qwen-max的SuspicionAgent。此外,我们设计的智能体通过赢得大量筹码(分别为123、21、12和35筹码)优于其他传统方法。这些发现证明了在不完全信息游戏中LLM策略演变和ToM能力的优势,以及在动态交互中环境感知和自我意识的有效性。

当采用相同的大型语言模型时,PolicyEvol-Agent的表现优于Suspicion-Agent。很明显,当与NFSP、DQN和CFR竞争时,PolicyEvolAgent获得的筹码比使用qwen-max的SuspicionAgent更多,尽管PolicyEvolAgent对抗DMC的胜出筹码略低于SuspicionAgent(-10筹码)。此外,使用qwen-max的PolicyEvolAgent的表现介于使用GPT 3.5和GPT 4的Suspicion-Agent之间。这种现象可能是由于大型语言模型版本之间的差异造成的。

4.5 消融研究

我们进一步研究了四个关键组件对PolicyEvol-Agent性能的影响:策略演变、信念生成、计划推荐和反思模块。表2展示了在100局游戏中对抗CFR、DMC和SuspicionAgent的筹码收益结果。

计划推荐对最终性能的提升影响最大。没有推荐的情况下,PolicyEvol-Agent可能会感到困惑,并最终随机选择动作列表中的一个动作,因为计划推荐直接指向LLM智能体的最佳动作。

借助信念生成,PolicyEvolAgent展现出显著的优势。如果缺乏挖掘游戏模拟中潜在信息的能力,这种LLM智能体的功能可能会或多或少被削弱。

策略演变在不完全信息场景中赢得更多筹码也起到了至关重要的作用。即使游戏环境为LLM提供了合法动作列表,由于缺乏对先前反思的推理,智能体也无法有效地做出理性决策。

反思在游戏评估中表现最少。我们发现,演化的策略和多方面的信念可能覆盖了一部分反思信息,这削弱了反思模块的影响。这就是为什么反思比其他组件的优势较小的原因。

4.6 进化过程分析

为了可视化策略演变过程,我们在图3中描绘了每10局游戏的筹码收益结果。在100局游戏中,整个演变过程大致可以分为三个阶段,当
img-2.jpeg

图3:进化过程中的每十局游戏的筹码收益。左图:PolicyEvol-Agent vs. SuspicionAgent。右图:PolicyEvol-Agent vs. CFR。我们用橙色线和灰色框分别表示平均和中位筹码收益。
img-3.jpeg

图4:在50局游戏中与Suspicion-Agent对决时,PolicyEvol-Agent在小盲注和大盲注下采取的不同动作比例。
与Suspicion-Agent和CFR竞争时:保守、攻击和稳定。

保守阶段旨在观察对手的反应模式并尽量减少失去筹码。然而,由于缺乏对对手的全面感知,不可避免地会做出不理性的决定并失去筹码。

经过一定数量的游戏后,PolicyEvolAgent可以获得一些历史经验并初步形成一种有效的策略以击败对手。由于策略剧烈更新(通常在40-70局之间),PolicyEvolAgent在此阶段表现出攻击性并偶尔做出错误决定。因此,攻击阶段以高回报和不稳定为特征。

第三阶段显示PolicyEvol-Agent已很好地掌握了对手和自身的心理状态。在此阶段,PolicyEvol-Agent能够推理对手的意图并控制自身的筹码损失。此外,我们在附录A中展示了一些游戏历史。通过参考这些案例,我们可以发现策略在稳定阶段得到了全面细化。

4.7 小盲注 vs. 大盲注

小盲注意味着玩家先行动,而大盲注投入比小盲注更多的筹码并随后行动。为了探索PolicyEvol-Agent在不同盲注位置的动作偏好,我们计算了PolicyEvol-Agent在50局游戏中采取的不同动作比例(见图4)。

可以看出,当处于小盲注位置时,PolicyEvol-Agent倾向于采取更为激进的行动。当PolicyEvol-Agent先行动时,它采取加注行动的次数比过牌和跟注更多。而在大盲注位置行动时,情况正好相反。这表明PolicyEvolAgent配备了虚张声势策略以占据主导地位,以便在不利条件下也能赢得更多并损失更少。

5 结论

本文中,我们开发了一个基于LLM的智能体PolicyEvol-Agent,该智能体具备心理状态感知能力,并能在不完全信息游戏中通过心智理论演化有偏差的策略。它通过从历史经验中学习,动态地与环境互动并迭代校准先前的策略。基于LLM的优化策略和心智理论能力生成了环境和自我意识信念。我们通过让PolicyEvol-Agent在两人游戏Leduc Hold’em中与一系列传统方法和强大的基线Suspicion-Agent竞争来对其进行评估。显著的筹码收益展示了PolicyEvol-Agent在推理、规划、决策和计划方面的综合能力。

局限性

PolicyEvol-Agent在动态交互游戏中展示了一种新颖的认知链,但我们必须声明仍存在局限性和改进空间。

多样化游戏场景。PolicyEvol-Agent仅能访问两人对抗游戏。然而,现实中有大量的复杂游戏。将其范围扩展到多人合作和竞争游戏将增强其实用性。例如,在基于团队的战略游戏中,智能体需要沟通、协调并做出决策。此外,探索实时游戏设置将进一步挑战和精炼其认知能力,因为不同的节奏和决策时间线将会发挥作用。

提高LLM的适用性。由于预算限制,我们从经济角度选择了合适的LLM。然而,不同版本的LLM对游戏场景的理解水平不同。因此,有必要首先分析各种LLM的性能,不仅要考虑它们在解释游戏规则和预测对手行为方面的准确性,还要考虑其计算效率和资源消耗。特别是在具有丰富叙事背景的游戏中,优先选择擅长自然语言生成以促进更多样化互动的LLM。

道德声明

我们的研究旨在提升多智能体系统的适用性。我们必须声明我们的工作严格遵守法律和道德标准。在整个研究过程中,所有实验都在安全的游戏环境中进行,确保不会对社会产生负面影响。我们认识到青少年游戏成瘾和不当牟利目的所带来的潜在风险。因此,我们实施了严格的原则以减轻任何意外后果。我们致力于开发我们的技术以积极贡献于多智能体系统,并倡导游戏AI智能体的道德使用。

参考文献

OpenAI Josh Achiam, Steven Adler, and et al. 2023. Gpt-4 技术报告.

Elif Akata, Lion Schulz, Julian Coda-Forno, Seong Joon Oh, Matthias Bethge, and Eric Schulz. 2023. 使用大型语言模型玩重复游戏。arXiv预印本 arXiv:2305.16867.

Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, and Hannaneh Hajishirzi. 2024. Self-RAG: 通过自我反思学习检索、生成和批判。在第十二届国际学习表示会议.

Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenhang Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, K. Lu, 和其他31人. 2023. Qwen 技术报告. ArXiv, abs/2309.16609.

Bahar Bateni 和 Jim Whitehead. 2024. 语言驱动的游戏:大型语言模型作为游戏智能体在Slay the Spire中的应用。在第19届国际数字游戏基础会议论文集,FDG '24, 纽约,NY,美国。Association for Computing Machinery.

Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Michal Podstawski, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Hubert Niewiadomski, Piotr Nyczyk, 和其他1人. 2024. 思维图谱:使用大型语言模型解决复杂问题。在AAAI人工智能会议论文集,第38卷,页17682-17690.

Chunkit Chan, Cheng Jiayang, Yauwai Yim, Zheye Deng, Wei Fan, Haoran Li, Xin Liu, Hongming Zhang, Weiqi Wang, 和 Yangqiu Song. 2024. NegotiationToM:谈判周围的机器心智理论基准测试。在计算语言学协会会议:EMNLP 2024 发现,佛罗里达州迈阿密,美国,11月12-16日,2024年,页4211-4241. 计算语言学协会.

和其他作者. 2023. Palm: 使用Pathways扩展语言建模规模. J. Mach. Learn. Res., 24(1).

Harmen De Weerd, Rineke Verbrugge, 和 Bart Verheij. 2014. 理论思维在Mod游戏中的应用:一种基于代理的战略推理模型. 在ECSI,页 128 − 136 128-136 128136.

DeepSeek-AI, Daya Guo, 和其他作者. 2025. DeepseekRL: 通过强化学习激励大型语言模型的推理能力. 预印本, arXiv:2501.12948.

Chris Frith 和 Uta Frith. 2005. 心智理论. Current biology, 15(17):R644-R645.

Roberto Gallotta, Graham Todd, Marvin Zammit, Sam Earle, Antonios Liapis, Julian Togelius, 和 Georgios N. Yannakakis. 2024. 大型语言模型与游戏:综述与路线图. ArXiv, abs/2402.18659.

Ran Gong, Qiuyuan Huang, Xiaojian Ma, Yusuke Noda, Zane Durante, Zilong Zheng, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao, 和 Hoi Vo. 2024. MindAgent: 新兴的游戏互动. 在计算语言学协会会议发现:NAACL 2024,墨西哥城,墨西哥. 计算语言学协会.

Jiaxian Guo, Bo Yang, Paul Yoo, Bill Yuchen Lin, Yusuke Iwasawa, 和 Yutaka Matsuo. 2023. Suspicion-Agent: 使用心智理论感知的GPT-4玩不完全信息游戏. ArXiv, abs/2309.17277.

Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, 和 Xiangliang Zhang. 2024. 基于大型语言模型的多智能体:进展与挑战的调查. 预印本, arXiv:2402.01680.

Johannes Heinrich 和 David Silver. 2016. 不完全信息游戏中的自我对弈深度强化学习. ArXiv, abs/1603.01121.

Sirui Hong, Mingchen Zhuge, Jonathan Chen, Xiawu Zheng, Yuheng Cheng, Jinlin Wang, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu, 和 Jürgen Schmidhuber. 2024. MetaGPT: 多智能体协作框架的元编程. 在第十二届国际学习表示会议.

Susan Hurley. 2008. 共享电路模型(SCM):控制、镜像和模拟如何实现模仿、深思熟虑和心智解读. 行为与脑科学, 31(1):1-22.

Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, 和其他1人. 2024. OpenAI O1系统卡片. arXiv预印本 arXiv:2412.16720.

Hyunwoo Kim, Jack Hessel, Liwei Jiang, Peter West, Ximing Lu, Youngjae Yu, Pei Zhou, Ronan Bras, Malihe Alikhani, Gunhee Kim, Maarten Sap, 和 Yejin Choi. 2023. SODA: 百万级对话蒸馏与社会常识情境化. 在2023年经验方法自然语言处理会议论文集, 页12930-12949, 新加坡. 计算语言学协会.

Michal Kosinski. 2023. 心智理论可能已在大型语言模型中自发出现. arXiv预印本 arXiv:2302.02083, 4:169.

Yihuai Lan, Zhiqiang Hu, Lei Wang, Yang Wang, DeYong Ye, Peilin Zhao, Ee-Peng Lim, Hui Xiong, 和 Hao Wang. 2023. 基于LLM的智能体社会调查:Avalon游戏中的合作与对抗. 在经验方法自然语言处理会议.

Myeonghwa Lee, Seonho An, 和 Min-Soo Kim. 2024. PlanRAG: 一种增强生成式大型语言模型作为决策者的计划后检索方法. 在2024年北美计算语言学学会会议人类语言技术分会论文集(第一卷:长论文),页6537-6555, 墨西哥城, 墨西哥. 计算语言学协会.

Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, 和 Bernard Ghanem. 2023a. CAMEL: 探索大型语言模型社会“心智”的交流智能体. 在第三十七届神经信息处理系统国际会议论文集, NIPS '23, Red Hook, NY, USA. Curran Associates Inc.

Huao Li, Yu Chong, Simon Stepputtis, Joseph Campbell, Dana Hughes, Charles Lewis, 和 Katia Sycara. 2023b. 通过大型语言模型实现多智能体协作的心智理论. 在2023年经验方法自然语言处理会议论文集, 页180-192, 新加坡. 计算语言学协会.

Shaoguang Mao, Yuzhe Cai, Yan Xia, Wenshan Wu, Xun Wang, Fengyi Wang, Qiang Guan, Tao Ge, 和 Furu Wei. 2025. ALYMPICS: LLM智能体遇见博弈论. 在第三十一届计算语言学国际会议论文集, 页2845-2866, 阿布扎比, 阿联酋. 计算语言学协会.

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin A. Riedmiller, Andreas Kirkeby Fidjeland, Georg Ostrovski, Stig Petersen, Charlie Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, 和 Demis Hassabis. 2015. 通过深度强化学习实现的人类水平控制. Nature, 518:529-533.

Shima Rahimi Moghaddam 和 Christopher J Honey. 2023. 通过提示提升大型语言模型的心智理论性能. arXiv预印本 arXiv:2304.11490.

David Premack 和 Guy Woodruff. 1978a. 黑猩猩是否有心智理论?行为与脑科学, 1(4):515-526.

David Premack 和 Guy Woodruff. 1978b. 黑猩猩是否有心智理论?行为与脑科学, 1(4):515-526.

Timo Schick, Jane Dwivedi-Yu, Roberto Dessi, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, 和 Thomas Scialom. 2023. Toolformer: 语言模型可以自学使用工具. 在第三十七届神经信息处理系统会议论文集.

Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, 和 Yueting Zhuang. 2024. HuggingGPT: 使用ChatGPT及其Hugging Face中的朋友们解决AI任务. 神经信息处理系统进展, 36.

Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, 和 Shunyu Yao. 2024. Reflexion: 具有口头强化学习的语言智能体. 神经信息处理系统进展, 36.

Yifan Song, Da Yin, Xiang Yue, Jie Huang, Sujian Li, 和 Bill Yuchen Lin. 2024. 试错法:基于LLM智能体的探索性轨迹优化. 在第六十二届计算语言学年会论文集(第一卷:长论文),页7584-7600, 曼谷, 泰国. 计算语言学协会.

Finnegan Southey, Michael Bowling, Bryce Larson, Carmelo Piccione, Neil Burch, Darse Billings, 和 Chris Rayner. 2005. 贝叶斯虚张声势:扑克中的对手建模. 在第二十一届不确定性人工智能会议论文集, UAI’05, 页550-558, 弗吉尼亚州阿灵顿, 美国. AUAI出版社.

Zhengwei Tao, Ting-En Lin, Xiancai Chen, Hangyu Li, Yuchuan Wu, Yongbin Li, Zhi Jin, Fei Huang, Dacheng Tao, 和 Jingren Zhou. 2024. 大型语言模型自演化的综述. 预印本, arXiv:2404.14387.

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurélien Rodriguez, Armand Joulin, Edouard Grave, 和 Guillaume Lample. 2023. Llama: 开放且高效的基座语言模型. ArXiv, abs/2302.13971.

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, 和 Denny Zhou. 2022a. 链式提示引发大型语言模型中的推理. 在第三十六届神经信息处理系统国际会议论文集, NIPS '22, Red Hook, NY, USA. Curran Associates Inc.

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, 和其他1人. 2022b. 链式提示引发大型语言模型中的推理. 神经信息处理系统进展, 35:2482424837.

Jincenzi Wu, Zhuang Chen, Jiawen Deng, Sahand Sabour, Helen Meng, 和 Minlie Huang. 2024a. COKE: 用于机器心智理论的认知知识图谱. 在第六十二届计算语言学年会论文集(第一卷:长论文),页1598416007, 曼谷, 泰国. 计算语言学协会.

Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Beibin Li, Erkang (Eric) Zhu, Li Jiang, Xiaoyun Zhang, Shaokun Zhang, Ahmed Awadallah, Ryen W. White, Doug Burger, 和 Chi Wang. 2024b. Autogen: 通过多智能体对话实现下一代LLM应用. 在COLM 2024.

Zhiheng Xi, Yiwen Ding, Wenxiang Chen, Boyang Hong, Honglin Guo, Junzhe Wang, Dingwen Yang, Chenyang Liao, Xin Guo, Wei He, 和其他1人. 2024. AgentGym: 在不同环境中演化基于大型语言模型的智能体. arXiv预印本 arXiv:2406.04151.

An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, 和其他1人. 2024. Qwen2.5 技术报告. arXiv预印本 arXiv:2412.15115.

Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, 和 Karthik Narasimhan. 2024. 思维树:大型语言模型中的深思熟虑问题解决. 神经信息处理系统进展, 36.

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R Narasimhan, 和 Yuan Cao. 2023. React: 语言模型中推理与行动的协同作用. 在第十届国际学习表示会议.

Yauwai Yim, Chunkit Chan, Tianyu Shi, Zheye Deng, Wei Fan, Tianshi Zheng, 和 Yangqiu Song. 2024. 在Guandan中基于心智理论评估和增强LLMs智能体:一个多人合作游戏下的不完全信息. arXiv预印本 arXiv:2408.02559.

Luyao Yuan, Zipeng Fu, Jingyue Shen, Lu Xu, Junhong Shen, 和 Song-Chun Zhu. 2020. 心智理论代理之间的参照游戏中的语用学涌现. arXiv预印本 arXiv:2001.07752.

Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Dongsheng Li, 和 Deqing Yang. 2024. Evoagent: 通过进化算法实现自动多智能体生成. 预印本, arXiv:2406.14228.

Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, Zhiyuan Liu, Peng Zhang, Yuxiao Dong, 和 Jie Tang. 2023. GLM-130b: 一个开放的双语预训练模型. 在第十一届国际学习表示会议.

Daochen Zha, Kwei-Herng Lai, Yuanpu Cao, Songyi Huang, Ruzhe Wei, Junyu Guo, 和 Xia Hu. 2019. RLCard: 卡牌游戏中的强化学习工具包. CoRR, abs/1910.04376.

Daochen Zha, Jingru Xie, Wenye Ma, Sheng Zhang, Xiangru Lian, Xia Hu, 和 Ji Liu. 2021. Douzero: 通过自我对弈深度强化学习掌握斗地主. 在第三十八届国际
机器学习会议论文集,第139卷,页12333-12344。PMLR。

Wenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang Hou, Zeqi Tan, Peng Li, Yueting Zhuang, 和 Weiming Lu. 2024. Agent-Pro: 通过策略层面反思和优化学习演变。在第六十二届计算语言学年会论文集(第一卷:长论文),页5348-5375, 曼谷, 泰国。计算语言学协会。

Youpeng Zhao, Yudong Lu, Jian Zhao, Wen gang Zhou, 和 Houqiang Li. 2023. Danzero+: 通过强化学习主导关灯游戏。IEEE Transactions on Games, 16:914-926。

Andrew Zhu, Lara Martin, Andrew Head, 和 Chris Callison-Burch. 2023. Calypso: LLMs作为地下城大师助手。在第十九届AAAI人工智能与交互式数字娱乐会议论文集,AIIDE '23。AAAI Press。

Martin A. Zinkevich, Michael Bradley Johanson, Michael Bowling, 和 Carmelo Piccione. 2007. 不完全信息游戏中遗憾最小化。在神经信息处理系统会议。

A 案例研究

在本节中,我们分别提供了PolicyEvol-Agent和Suspicion-Agent之间的几场游戏历史,以展示通过行为模式演变的过程。在这些历史记录中,“board game expert”是PolicyEvol-Agent,而“GoodGuy”是Suspicion-Agent。

第七局开始。
GoodGuy 的观察为 {’ hand’: ‘HK’, ‘public_card’: None, ‘all_chips’: [2, 1], ’ my_chips’: 1, ‘legal_actions’: [‘call’, ‘raise’, ‘fold’]},尝试采取动作: call。
board_game_expert 的观察为: {‘hand’: ‘HJ’, ’ public_card’: None, ‘all_chips ‘: [2, 2], ‘my_chips’: 2, ’ legal_actions’: [‘raise’, ’ fold’, ‘check’]},尝试采取动作: check,并对GoodGuy说 “我将等待公共牌的情况再决定下一步行动。”
GoodGuy 的观察为: {’ hand’: ‘HK’, ‘public_card’:
None, ‘all_chips’: [2, 1], ’ my_chips’: 1, ‘legal_actions’: [‘call’, ‘raise’, ‘fold’]},并尝试采取动作: call。
board_game_expert 的观察为: {‘hand’: ‘HJ’, ’ public_card’: ‘HQ’, ‘all_chips ‘: [2, 2], ‘my_chips’: 2, ’ legal_actions’: [‘raise’, ’ fold’, ‘check’]},尝试采取动作: check,并对GoodGuy说 “我将等待你的下一步行动。”
GoodGuy 的观察为: {’ hand’: ‘HK’, ‘public_card’: ’ HQ’, ‘all_chips’: [2, 2], ’ my_chips’: 2, ‘legal_actions’: [‘raise’, ‘fold’, ‘check’]},对board_game_expert说 “我想我只需要看看你接下来的动作。”,并尝试采取动作: check。
GoodGuy赢得1.0筹码,board_game_expert失去1.0筹码。

第三十局开始。
GoodGuy 的观察为 {’ hand’: ‘SK’, ‘public_card’: None, ‘all_chips’: [2, 1], ’ my_chips’: 1, ‘legal_actions’: [‘call’, ‘raise’, ‘fold’]},尝试采取动作: raise。
board_game_expert 的观察为: {‘hand’: ‘HK’, ’ public_card’: None, ‘all_chips ‘: [2, 4], ‘my_chips’: 2, ’ legal_actions’: [‘call’, ’ raise’, ‘fold’]},尝试采取动作: raise,并对GoodGuy说 “我认为我的手牌太强了,不能错过这个机会。让我们看看你有什么。”
GoodGuy 的观察为: {’ hand’: ‘SK’, ‘public_card’: None, ‘all_chips’: [2, 1], ’ my_chips’: 1, ‘legal_actions’: [‘call’, ‘raise’, ‘fold’]},并尝试采取动作: raise。
board_game_expert 的观察为: {‘hand’: ‘HK’, ’ public_card’: ‘SJ’, ‘all_chips ‘: [6, 6], ‘my_chips’: 6, legal_actions’: [‘raise’, ’ fold’, ‘check’]},尝试采取动作: raise,并对GoodGuy说 “我认为我的手牌太强了,不能错过这个机会。让我们看看你是否愿意匹配这个。”
GoodGuy 的观察为: {’ hand’: ‘SK’, ‘public_card’: SJ’, ‘all_chips’: [10, 6], ’ my_chips’: 6, ‘legal_actions’: [‘call’, ‘raise’, ‘fold’]},并尝试采取动作: call。
GoodGuy赢得0.0筹码,board_game_expert失去0.0筹码。

第七十局开始。
board_game_expert 的观察为: {‘hand’: ‘HK’, ’ public_card’: None, ‘all_chips ‘: [1, 2], ‘my_chips’: 1, ’ legal_actions’: [‘call’, ’ raise’, ‘fold’]},尝试采取动作: raise,并对GoodGuy说 “GoodGuy,我对我的手牌充满信心。让我们看看你如何回应!”
GoodGuy 的观察为 {’ hand’: ‘SJ’, ‘public_card’: None, ‘all_chips’: [4, 2], ’ my_chips’: 2, ‘legal_actions’: [‘call’, ‘raise’, ‘fold’]},尝试采取动作: call。
board_game_expert 的观察为: {‘hand’: ‘HK’, ’ public_card’: ‘SK’, ‘all_chips ‘: [4, 4], ‘my_chips’: 4, ’ legal_actions’: [‘raise’, ’ fold’, ‘check’]},尝试采取动作: raise,并对GoodGuy说 “在桌面上有两个国王的情况下,我认为我的手牌非常强。让我们看看你的回应。”
board_game_expert赢得2.0筹码,

GoodGuy失去2.0筹码。

第八十六局开始。
board_game_expert 的观察为: {‘hand’: ‘HK’, ’ public_card’: None, ‘all_chips ‘: [1, 2], ‘my_chips’: 1, ’ legal_actions’: [‘call’, ’ raise’, ‘fold’]},尝试采取动作: raise,并对GoodGuy说 “我认为我会在这里加注。让我们看看你有什么。”
GoodGuy 的观察为 {’ hand’: ‘HJ’, ‘public_card’: None, ‘all_chips’: [4, 2], ’ my_chips’: 2, ‘legal_actions’: [‘call’, ‘raise’, ‘fold’]},尝试采取动作: call。
board_game_expert 的观察为: {‘hand’: ‘HK’, ’ public_card’: ‘HQ’, ‘all_chips ‘: [4, 4], ‘my_chips’: 4, ’ legal_actions’: [‘raise’, ’ fold’, ‘check’]},尝试采取动作: check,并对GoodGuy说 “我将检查。让我们看看你有什么。”
board_game_expert赢得2.0筹码,GoodGuy失去2.0筹码。

我们可以观察到早期的PolicyEvol-Agent较为不理性的表现,最初几乎没有反思。随着演化的进行,PolicyEvol-Agent表现出更激进的行为,更多加注和更少弃牌。在最终阶段,它具备灵活且可接近的策略。通过比较这些游戏的中间过程,很明显可以看出行为的演变:从混乱到稳定,从不理性的到理性的。

B 详细游戏信息

B. 1 游戏介绍

Leduc Hold’em 最早由Southey等人(2005)引入,有时用于学术研究。该游戏使用仅包含两张国王、皇后和杰克的牌组,总共六张牌。每局游戏固定两名玩家参与,只有两轮,每轮最多两次下注。游戏开始时每位玩家各发一张私人牌,随后进行一轮下注。然后,另一张牌面朝上作为公共(或桌面)牌发出,
接着进行另一轮下注。最后,玩家揭示他们的私人牌。如果某位玩家的私人牌等级与公共牌相同,则该玩家赢得游戏;否则,私人牌等级较高的玩家获胜。

B. 2 规则

在第二轮开始时有一张公共手牌可用。玩家可以选择四种动作:加注、跟注、过牌和弃牌。加注动作:在第一轮(公共牌未揭示时),你需要投入筹码以确保你的筹码在底池中的数量比对手多2个;在第二轮(公共牌揭示后),你需要投入筹码以确保你的筹码在底池中的数量比对手多4个。跟注动作:你会投入与对手相同的筹码量(如果他的筹码在底池中比你的多)。过牌动作:你将放弃投注机会并等待下一个玩家的行动。弃牌动作:当你决定不再继续游戏时,你会退出并失去已投入底池的筹码。在第一轮中,随机选择一名玩家投入1单位筹码作为小盲注,另一名玩家投入2单位筹码作为大盲注,每位玩家分发一张私人牌,然后开始投注。小盲注玩家先行动。在第二轮中,首先揭示一张公共牌,然后玩家再次投注。(整场比赛只有一张公共牌可用。)

单局游戏胜负规则:手中牌等级与公共牌相同的玩家赢得一局游戏。如果都不是,则牌等级较高的玩家赢得此局游戏;如果两位玩家的牌等级相同,则为平局。你也可以在一局游戏中选择弃牌,那么对手直接赢得游戏。

整场比赛胜负规则:测试阶段需要与对手进行100局游戏(即),双方初始各有100筹码,拥有更多筹码的一方在100局测试后赢得比赛(即你的目标是比原始筹码更多)。

胜出回报规则:底池总额的一半。
失败回报规则:底池总额的一半。

C 相关工作

C. 1 LLM能力

近年来,人们投入大量精力来开发LLMs在广泛自然语言任务中的推理和规划能力。为了实现预定目标,提出了一系列范式,如链式思维(CoT)、思维树(ToT)和思维图(GoT),通过模仿人类思维的制定过程来提升LLMs的提示能力(Wei等,2022b;Yao等,2024;Besta等,2024)。随后,OpenAI通过嵌入CoT过程并将强化学习整合到训练中推出了o1模型,进一步增强了LLM的推理性能(Jaech等,2024)。此外,检索增强生成(RAG)在事实决策和LLM生成响应方面显示出有效性,通过基于外部资源(Lee等,2024;Asai等,2024)。为了确保LLMs能够基于推理和规划执行复杂任务,而不仅仅是语言生成,例如感知环境和采取行动,利用集体智能和智能体技能更为普遍。ReACT(Yao等,2023)在问题回答和事实验证场景中协同了推理和行动。Self-Reflexion(Shinn等,2024)根据长时间轨迹的反馈执行顺序动作选择,从而在决策、编码和推理任务中取得了改进。基于LLM的智能体也很好地应用于模拟游戏场景中作为玩家。Akata等(2023)利用LLMs通过自然语言通信和提供类似人类的计划来玩重复的性别之战游戏。Yim等(2024)通过同时将强化学习作为外部工具整合到关灯卡牌游戏中,开发了一种复杂的基于文本的智能体。

C. 2 心智理论应用

心智理论(ToM),以其认知能力著称,使LLMs能够感知和推断环境及其自身状态,如同信念、知识、欲望和意图(Premack和Woodruff,1978b;Frith和Frith,2005;Hurley,2008;Chan等,2024),已被广泛应用于预测个人动机并在不完全信息游戏中改善推理和决策(De Weerd等,2014)。尽管现有文献中心智理论在大型语言模型中的应用仍面临挑战,但最近的研究表明其在复杂的基于文本的实际世界模拟中具有巨大潜力,包括像扑克或象棋这样的不完全信息游戏(Yuan等,2020;Kosinski,2023;Moghaddam和Honey,2023;Zhang等,2024)。Suspicion-Agent(Guo等,2023)在Leduc Hold’em中表现出最先进的性能,展示了涉及动态交互的第一阶和第二阶ToM推断。Li等(2023b)探讨了基于LLM的智能体在多智能体合作文本游戏中的显式信念状态表示,发现这增强了ToM推断的准确性。Yim等(2024)提出了一种ToM规划技术,使具身智能体能够与对抗智能体战略性地合作。受这些研究的启发,我们的研究旨在通过将ToM能力融入策略演变来改进基于LLM的智能体的行为模式。

D PolicyEvol-Agent 的提示

D. 1 状态解释

“你是一个NPC角色{agent_name}背后的玩家,附属于玩家索引{user_index},你正在与{recipient_name}进行板游{game_name}。\n”
" 游戏规则是:{rule} \n"
" 你现在的观察是:{observation} \n"
" 并且观察转换规则是:{observation_rule} \n"
" 你将在这一回合收到一个可以执行的有效动作列表。 \ n " \backslash n " \n"
" 你的有效动作列表是:{valid_action_list} \n"
" 请根据观察转换规则和你对{game_name}的知识,将{observation}和{valid_action_list}转换为可读文本(简短回应)。 \n\n"

D. 2 策略演变

环境模式提示:

“你是一个NPC角色{agent_name}背后的玩家,
你正在与{recipient_name}进行板游{game_name}。
\n”
" 游戏规则是:{rule} \n"
" 你在当前游戏中的前一轮历史是:{
cshort_summarization)\n"
" 你的游戏记忆包括观察、动作、
与{recipient_name}的对话和你的反思是: \n{
long_memory)\n"
" 你对对手{recipient_name}的先前行为模式分析是: {old_opponent_pattern}\n"
" 请理解游戏规则、所有先前游戏总结
和{recipient_name}的先前游戏模式,能否为未来的游戏做以下事情? \n"
" 修订{recipient_name}的游戏模式,公共牌未发布:请推断或更新{recipient_name}对于他持有的每张牌的所有可能合理的游戏模式/偏好概率(总计归一化为100%)作为一个树状结构输出逐步说明当公共牌不可见时。"
" 输出:在公共牌未发布的回合中,当name持有card1时,他会喜欢做动作(概率);当name持有card2时,他会喜欢做动作(概率),…
\n "
" 判断{recipient_name}的性格:请根据新更新的游戏模式和游戏历史推断{recipient_name}的行为性格。输出:据我所知,{recipient_name}倾向于激进/保守/中立/灵活行动。"

自我模式提示:

"你是一个NPC角色\{ agent_name\}背后的客观玩家,你正在与\{ recipient_name\}进行\{game_name\}。\n"

" 游戏规则是:{rule} \n"
" 你在当前游戏中的前一轮历史是: {
cshort_summarization}\n"
" 你的游戏记忆包括观察、动作、
与{recipient_name}的对话和你的反思是: \n{
long_memory}\n"
" 你的先前行为策略模式是: {old_self_pattern}\n "
" 你对对手{recipient_name}的当前行为模式分析和推理是: {opponent_pattern}\n"
" 请理解游戏规则、所有先前游戏记录、
{recipient_name}的当前游戏模式和你的先前行为策略,能否为未来的游戏做以下事情?
\n "
" 反思:反思你在先前游戏中的动作是对还是错(特别是在公共牌未发布时),并逐步思考为什么你具体赢得了或失去了筹码。{请注意,在游戏中你无法观察到对手的牌,但你可以观察他的动作。}\n "
" 策略改进:结合上述信息和你的反思,思考我可以采用哪些策略来利用{recipient_name}的游戏模式。考虑到{recipient_name}对我没有公共牌时的游戏模式的猜测,逐步修订之前的策略以赢得{recipient_name}。"
" 输出:当我持有无公共牌时,看到对手的动作,我可能会采取动作1(概率),动作2(概率)(总计归一化为100%),据我所知,我倾向于激进/保守/中立/灵活行动,因为我可以推断{recipient_name}(或不)可能在虚张声势;继续… "

D. 3 信念生成

环境信念提示:

“你是一个NPC角色{agent_name}背后的玩家,并且
正在与{recipient_name}进行板游{game_name}。\n”
" 游戏规则是:{rule} \n"
" 你对{recipient_name}的行为模式和性格的估计判断是: {pattern} \n"
" 你现在的观察是:{observation}\n"
" 你当前的游戏进度总结包括与{recipient_name}的动作和
对话是: {recent_observations}\n"
" 你的先前游戏记忆包括观察、动作、
与{recipient_name}的对话和你的反思是: \n{
long_memory}\n"
" 理解游戏规则、你拥有的牌、你的观察、
当前游戏的进度总结和先前游戏历史,{recipient_name}的行为模式和性格估计,{recipient_name}对你潜在的猜测模式,以及你对{game_name}的知识,能否做以下事情?\n "
" 关于{recipient_name}的牌的信念:理解所有给定的信息,请逐步客观推断{recipient_name}的牌的概率(总计归一化为100%)。"
" 输出:{recipient_name}看到了我的历史动作(或未看到)然后在第一轮做了动作1(概率),… 继续…
在这一轮之前,{recipient_name}看到了我的历史动作(或未看到)然后做了动作1(概率),因为{recipient_name}的行为模式和与公共牌(如果已发布)的匹配,{recipient_name}倾向于拥有card1(概率),card2 (
概率)…继续…(总计归一化为100%)。\n"
" 分析{recipient_name}的牌:请逐步分析{recipient_name}的最佳组合和当前轮次的优势。\n"
" 潜在的{recipient_name}对你牌的当前信念:
理解所有给定信息和你对{game_name}的知识,如果你是{recipient_name}(他只能观察你的动作但看不到你的牌),请逐步推断{recipient_name}对你牌的信念(总计归一化为100%)。输出:{agent_name}在第一轮做了动作1(概率)(在我做动作之后或不做动作),… 继续… {agent_name}在当前轮次做了动作1(概率)(在我做动作之后或不做动作),从{recipient_name}的角度看,{agent_name}倾向于拥有card1(概率),card2(概率)…(总计归一化为100%)。\n"
" 猜测潜在的{recipient_name}在下一轮的目标:
理解所有给定信息和你对{game_name}的知识,如果你是{recipient_name}(你只能观察他的动作但看不到他的牌),请推断{recipient_name}在{agent_name}采取动作后的目标(如果可能)。输出:当我做动作1(概率)时,{recipient_name}将会…继续…\n"
“请不要回应太多无关信息。”

自我意识信念提示:

“你是一个NPC角色{agent_name}背后的玩家,并且
正在与{recipient_name}进行板游{game_name}。\n”
" 游戏规则是:{rule} \n"
" 你对自己行为反思和改进策略的估计判断是:{pattern} \n"
" 你对{recipient_name}的行为反思和改进策略的估计判断是:{oppo_pattern} \n"
" 你对{recipient_name}的估计信念是:{oppo_belief} \n"
" 你现在的观察是:{observation}\n"
" 你当前的游戏进度总结包括与{recipient_name}的动作和
对话是: {recent_observations}\n"
" 你的先前游戏记忆包括观察、动作、
与{recipient_name}的对话和你的反思是: \n{
long_memory}\n"

" 理解游戏规则、你拥有的牌、你的观察、当前游戏的进度总结和先前游戏历史,你对行动的反思和改进策略,以及你对{game_name}的知识,能否做以下事情? \n"
" 分析你的牌:理解所有给定信息和你对{game_name}的知识,请逐步分析你的可能组合、优势和劣势在当前轮次。\n"
" 制定你当前轮次的目标:为了最终赢得更多筹码,思考你想说什么和采取什么动作来虚张声势{recipient_name}。\n "
" 请不要回应太多无关信息。"

D. 4 计划推荐

“你是一个NPC角色叫{
initiator_name}背后的客观玩家,并且你正在与{recipient_name}进行板游{game_name}。\n”
" 游戏规则是:{rule} \n"
${pattern}\n’
" 你对游戏状态现在的观察是: {observation}\n"
" 你当前的游戏进度总结包括与{recipient_name}的动作和
对话是: {recent_observations}\n"
${belief}\n’
" 理解所有给定信息,能否做以下事情:"
" 制定合理计划:请根据你现在可以玩的动作{valid_action_list}制定几个策略以逐步赢得整个{game_name}游戏。请注意,你可以说话或保持沉默以混淆对手。\n"
" 列出潜在的{recipient_name}的动作并估计每个计划的胜/负/平率:从{recipient_name}的角度出发,请推断当{recipient_name}持有不同牌时会采取什么动作的概率(总计归一化为100%),然后计算当{recipient_name}持有不同牌时的胜/负/平率逐步。最后,请考虑{recipient_name}的行为模式,逐步计算每个计划的整体胜/负/平率。输出为树状结构:
“输出:计划1:如果我执行计划1。
当{recipient_name}持有card1时的胜/负/平率:基于{recipient_name}的行为模式,在xx轮中,因为{recipient_name}持有card1(概率)并与当前公共牌(如果已发布)的组合(基于我对{recipient_name}的信念),如果他看到我的动作,{recipient_name}将会做动作1(概率)(我实际上持有牌并且公共牌(如果揭示)是 ,他持有card1并且公共牌(如果揭示),考虑到单局游戏胜负规则,请逐步推断我会赢/平/输),动作2(概率)(考虑到单局游戏胜负规则,请逐步推断我会赢/平/输),…(总计归一化为100%在总内); \n 整体(对他card1的胜率)是(概率=他的牌概率 * 赢动作概率),(对他card2的负率)是(概率=他的牌概率 * 负动作概率),(对他card2的平率)是(概率 = 他的牌概率 * 平动作概率)
*当{recipient_name}持有card2时的胜/负/平率:基于{recipient_name}的行为模式,在xx轮中,因为{recipient_name}持有card2(概率)并与当前公共牌(如果已发布)的组合(基于我对{recipient_name}的信念),如果他看到我的动作,他会做动作1(概率)(我实际上持有牌并且公共牌(如果揭示)是 ,他持有card1并且公共牌(如果揭示),考虑到单局游戏胜负规则,请逐步推断我会赢/平/输)… 动作2(概率)(总计归一化为100%在总内)(考虑到单局游戏胜负规则,请逐步推断我会赢/平/输)… ;… 继续 …
\n 整体(对他card2的胜率)是(概率 = 他的牌概率 * 赢动作概率),(对他card2的负率)是(概率=他的牌概率 * 负动作概率),(对他card2的平率)是(概率 = 他的牌概率 * 平动作概率) "
*计划1整体{initiator_name}的胜/负/平率 : 计划1的胜率(概率)是(他对card1的胜率)+(他对card2的胜率)+ … ; 计划1的负率(概率): (他对card1的负率)+(他对card2的负率)+ … ; 计划1的平率(概率): (他对card1的平率)+(他对card2的平率)+ … ; (总计归一化为100%在总内)对于计划1 \n”
*计划2:如果我执行计划2,当{recipient_name}持有card1时的胜/负/平率:基于{recipient_name}的行为模式,在xx轮中,如果{recipient_name}持有card1(概率)并与当前公共牌(如果已发布)的组合,… (格式类似于之前)… 继续 …
"
*计划3:… 继续 …
"
* 每个计划的收益数量:理解你的当前观察、每个新计划,请逐步推断每个计划的胜/负收益数量,输出:计划1:动作后,所有筹码都在底池:如果赢,胜出收益将是(按胜出收益规则逐步计算)。动作后,所有筹码在底池:如果输,输掉的筹码将是:(按输掉收益规则逐步计算)。计划2:动作后,所有筹码在底池:如果赢,赢得的筹码将是(按胜出收益规则逐步计算): 动作后,所有筹码在底池:如果输,输掉的筹码将是:(按输掉收益规则逐步计算)。如果我的筹码在底池中没有变化,请直接输出它们。 \n"
* *估算每个计划的预期筹码收益 :理解所有信息并估算每个计划的胜/负/平率,请通过计算胜率 * (游戏规则中的胜出收益规则)- 负率 * (游戏规则中的输掉收益规则)逐步估算当前游戏中每个计划/策略的整体平均预期筹码收益(注意你应该首先考虑在采取不同动作时是否要将筹码加入底池,然后计算预期筹码收益)。 \n"
计划选择:请客观地逐步输出每个计划的预期筹码收益排名,并考虑策略改进,选择具有最高预期筹码收益的计划/策略。 \n"

参考论文:https://arxiv.org/pdf/2504.15313

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值