1 引言
大型语言模型(LLMs)开启了人工智能的新时代,特别是在执行推理任务方面展现出潜力,包括常识问答和数学问题等。
策略推理代表了一种独特的推理艺术。通常,它涉及在多智能体环境中合理选择最佳行动策略,考虑到其他人可能的行为以及自己的决策将如何影响他们的选择。大型语言模型进行策略推理的必要性超出了学术好奇心;它是理解和导航物理和社会世界的复杂性所不可或缺的。人类智能不仅预测物理和社会环境中行为的结果,还基于这些预测调整策略。为了赋予AI社会属性—使其更智能、负责任,并具备同情心视角—深入研究LLMs的策略推理是必要的。
策略推理与其他推理形式的区别在于推理环境的动态性和对手行动的不确定性。我们比较了不同推理任务所需的核心认知技能,如表1所示。它不仅需要深刻理解动态环境(背景),还需要在预测其他参与者的基础上做出合理决策的能力。策略推理挑战与现实世界问题高度相关,包括商业分析和政策制定。由于其引人入胜的特点,策略推理已经吸引了学术界的越来越多的关注。
2 定义:LLMs 的策略推理是什么
策略推理可以定义为在竞争性或合作性的多智能体环境中预见并影响他人行动的能力。这包括理解他人的动机、意图和潜在行动,以及环境中的因果关系。与其他可能侧重于静态问题解决或单一智能体决策的推理形式不同,策略推理本质上是动态和互动的,需要不断评估不断演变的情况和其它智能体的意图。在附录A.2中,我们为LLMs提供了策略推理的正式定义。
策略推理的核心特点包括:
-
目标导向:推理过程旨在实现特定目标,通常在竞争或合作框架内。
-
互动性:策略推理涉及多个智能体之间的互动,每个智能体的决策都影响着其他智能体,并受其他智能体决策的影响。
-
预测性质:基于有限信息和不确定结果,需要预测其他智能体的行动和反应。
-
适应性:智能体必须能够根据其他智能体的行动和环境的变化调整其策略。
我们还需要明确讨论范围之外的内容。具体来说,我们不会涉及缺乏策略复杂性的环境,例如不涉及明显策略推理的生成性智能体模拟。此外,不涉及动态环境调整或合作伙伴反馈的多智能体协作任务解决场景也从策略推理分析中排除。这种排除包括策略推理要么缺失要么显著减少的环境和用例,确保我们的关注点仍然是需要全面理解目标、竞争和环境动态的LLMs策略应用。
3 应用场景:在何处应用LLMs的策略推理
本文描述了LLMs在策略推理应用中的独特方面,展示了这些模型在各种设置中的预测和适应方式。如图2所示,我们将这些场景分类为社会模拟、经济模拟、博弈论和游戏。每个类别代表不同的环境或条件集合,在这些条件下需要策略推理,并且它们共同展示了LLMs在理解和影响多智能体动态方面的多样性和深度:
-
社会模拟:专注于社会系统和互动的模拟,其中LLMs用于模拟和预测复杂社会环境中的人类行为。
-
辩论与谈判:涉及政治辩论、谈判等领域,LLMs被用来模拟人类在类似互动中的行为。
-
经济模拟:涉及市场动态、商业运营和金融决策过程的建模,LLMs被应用于理解和预测经济决策的结果。
-
博弈论:研究理性决策者之间的策略互动,LLMs参与博弈论模拟,测试其在竞争性、合作性和混合动机情况下制定策略的能力。
-
游戏:包括棋盘游戏、纸牌游戏和电子游戏,策略推理对于成功至关重要,LLMs被用来理解游戏机制、制定获胜策略并适应对手的战术。
4 方法:如何提高LLMs在策略推理中的性能
为了提高LLM在策略推理挑战中的性能,最近出现了许多方法。我们根据它们的底层动机将这些方法分为四种类型,如图3所示。
提示工程(Prompt Engineering)指的是在构建有效的提示以指导大型语言模型(LLMs)生成影响力输出时所采用的技术和方法论。这包括基于学习的提示(Learning-Based prompting)和任务特定提示(Task-Specific Prompting)。鉴于涉及策略推理的任务比数学推理具有更复杂的背景,利用提示工程以促进LLMs更清晰地理解场景是一种直接方法。例如,Fu等人(2023年)、Xu等人(2023年c)、Wu等人(2023年)和Hua等人(2024年)的研究集中在检索历史游戏数据以进行上下文学习。这些努力旨在通过反馈和反思提高LLMs在谈判和交流游戏中的能力。
模块增强智能体(Modular Enhanced Agents)通过整合记忆模块以重用成功策略,并利用外部知识库检索有用信息或特定领域的数据,在策略推理场景中表现出更优越的性能。为了增强LLMs在通信和交互中的有效性,Lan等人(2023年)提出了一个创新和全面的框架,专为《阿瓦隆》游戏设计,包括摘要、分析、规划和行动的模块。在谈判背景下,OG-Narrator(Xia等人,2024年)结合了一个确定性的报价生成器,调节买方提议的价格范围,以及基于LLM的叙述者,为这些报价制定自然语言句子,与基线相比实现了盈利能力的十倍增长。
心智理论(Theory of Mind, ToM)是策略推理中的关键概念,使智能体能基于他人的心理状态进行预测和策略制定。Gandhi等人(2023年)和Suspicion-Agent(Guo等人,2023年)采用ToM框架将策略推理过程分解为搜索算法、价值评估和信念跟踪环境,分别针对矩阵游戏和扑克进行了定制。这种方法显著提升了LLMs的决策能力。SimTom(Wilf等人,2023年)和K-Level Reasoning(Zhang等人,2024年c)表明,当使用针对特定对手的会话时,对对手行为的预测会变得更加精确。K-Level Reasoning进一步阐释了更广泛的历史记录可以提高预测的准确性,展示了LLMs的动态适应能力。
模仿学习和强化学习(Imitation Learning and Reinforcement Learning, RL)与LLMs的融合也标志着策略推理能力的重要进步。Feng等人(2023年)、Guo等人(2024年a)和ChessGPT(Feng等人,2024年)在将大型语言模型(LLMs)整合到国际象棋领域中发挥了关键作用。为了增强LLMs的国际象棋性能,采用了一种分叉方法:首先,通过模仿人类玩家的经验智慧,从而吸收专家游戏策略和战术决策的精髓;其次,利用LLMs固有的预训练推理能力作为价值函数,直接提升其操作效率。
5 评估:如何评估LLMs的策略推理
策略推理的评估包括在受控环境中测量结果,通过诸如胜率(Qiao等人,2023年)、生存率(Mao等人,2023年)和奖励等性能指标来衡量模型的有效性。研究如GTBench(Duan等人,2024年)和LLMArena(Chen等人,2024年),采用诸如归一化相对优势(NRA)和TrueSkill(Herbrich等人,2006年)等复杂的评分系统,为这种分析提供了结构化的框架。这些工具不仅量化了成功,还允许跨不同游戏类型和难度级别进行比较,提供了对LLM战略能力的全面视图。
LLMs在策略推理中的评估还包括对推理过程的定量分析。针对游戏中的过程的指标侧重于评估LLM感知、预测和适应动态环境及对手策略的能力。例如,MAgIC(Xu等人,2023年b)评估了LLM在不完全信息条件下分析对手动作的准确性,而K-Level Reasoning(Zhang等人,2024年c)评估了基于公共信息预测行为的精确度。面向过程的评估在多智能体环境中至关重要,因为不确定的对手行为导致的非静态性显著影响性能。准确预测对手行为对于减轻这种非静态性的影响至关重要,提供了对LLM战略能力的更清晰视图。
此外,考虑到LLMs的内在优势,例如它们生成推理过程的能力,为评估策略推理提供了独特的角度。与仅关注结果的强化学习方法不同,LLMs通过详细说明它们所采取的推理步骤,提供了可解释性。这一特性使得可以进行更有针对性的评估,其中模型的输出本身可以被分析以更好地理解决策过程。因此,将这些见解整合到LLMs的定量评估中至关重要。
定性评估转向理解LLMs中策略推理的潜在机制,包括能力如欺骗、合作、辨别等。这些方面对于应对多智能体互动的复杂性至关重要,其中策略的有效性通常取决于对手行为和游戏状态的动态和不可预测性。例如,在像狼人杀(Xu等人,2023年c)或扑克(Guo等人,2023年)这样的游戏中,有效进行欺骗或合作的能力与最终游戏结果一样,是策略推理的指示。
定量和定性评估之间的相互作用对于全面理解LLMs的策略推理能力至关重要。虽然定量分析提供了客观的基准,但定性见解揭示了LLMs在复杂现实世界场景中的战略深度和适应性。这种双重方法不仅增强了评估框架的稳健性,还解决了在策略推理中测量认知过程的内在挑战。
6 讨论:对LLMs进行策略推理的展望
6.1 LLM智能体真的能模拟人类的策略推理吗?
尽管LLMs和LLM智能体已经被应用于各种策略推理场景中,并且一些研究声称在某些模拟中出现了类似人类的智能能力,我们认为,对于不同复杂性和认知难度的策略推理任务,LLM可以被应用到何种程度,缺乏系统和严格的研究。这种系统和严格研究的缺失导致了对LLM在这些情境中可扩展性和局限性理解上的差距。具体来说,目前还不清楚不同大小和配置的LLM与它们处理复杂策略环境中决策和预测任务的能力如何相关。没有这些知识,LLM在策略推理中的应用可能会变得随意,可能忽略了关于模型能力、决策过程以及潜在偏见或缺陷的关键见解。因此,采用更有结构化的方法来研究和分类LLM在策略推理中的竞争力是至关重要的,以充分挖掘它们的潜力,并确保在多智能体策略模拟中负责任的发展和部署。
6.2 架起鸿沟:统一基准的迫切需求
策略推理的一个关键挑战是缺乏统一基准。虽然最近有一些基准(Xu等人,2023年b;Duan等人,2024年;Chen等人,2024年)源自经典博弈论问题,用于策略推理,但策略推理广泛的应用范围,从商业战略到复杂系统模拟,导致了定制化解决方案的激增,这些解决方案专注于新场景而不是在明确定义的基准内的深入探索。这种趋势阻碍了直接的方法比较,并在共同标准下抑制了进步。另外,如第5节所述,在策略推理任务中,通常需要使用定量和定性评估相结合的方法,全面评估LLM在推理过程和结果中的性能,这为统一基准的设计带来了挑战。策略推理社区迫切需要合作,创建适当的难度级别,公认的基准,涵盖其多样化的应用。这些基准将有助于算法性能评估、方法比较,并通过对明确指标、代表性数据集和评估协议的定义来推动创新。这种努力可以统一该领域,增强知识共享,并加速技术发展。
6.3 对LLMs来说,策略推理具有挑战性但前景光明
策略推理在LLMs中提出了一个独特的挑战。这些模型在预训练阶段依赖于下一个词预测,擅长从大量静态文本数据中学习模式,但在本质上理解策略推理的微妙之处上存在困难。这种局限性源于策略推理需要理解多个智能体之间复杂的、动态的互动,这不仅仅是从静态文本数据中直接推断出来的。尽管如此,用于训练LLM的大量数据使它们能够模拟广泛的行为和场景,间接捕捉策略思维的元素。通过制定提示或算法,将问题置于策略背景中,这些模型可以生成反映策略考虑的响应。
然而,问题仍然存在,仅仅扩大规模—仅仅增加通用LLM的参数数量和训练数据量—是否足以让通用LLM完全掌握策略推理。虽然更大的模型可以捕捉更细微和复杂的模式,但策略推理本质上涉及理解意图、基于这些意图预测未来行动,并根据不断演变的情况动态调整策略。这些方面并不仅仅是模型大小或数据量的功能。我们推测,即使是最强大的通用LLM也可能无法完全实现策略推理能力。
7 结论
总之,我们的综述强调了LLMs在策略推理中的关键作用,展示了它们在各个领域复杂决策中的演变和显著优势。未来的工作应该集中于跨学科合作,以弥合理论进步和实际应用之间的差距,增强决策过程和策略发展。随着我们的进步,探索和完善LLMs的承诺,有望在人工智能领域提供重大进步,为解决复杂问题和丰富互联世界中的战略决策开辟新途径。这要求研究人员和实践者共同努力,释放LLMs对策略推理变革性影响。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。