《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》翻译

酿久诗

已于 2023-09-12 16:22:41 修改

阅读量574

点赞数 1

分类专栏：论文阅读笔记文章标签： Cicero

于 2023-09-08 21:56:06 首次发布

本文链接：https://blog.csdn.net/qq_41731861/article/details/132767381

版权

论文阅读笔记专栏收录该内容

12 篇文章

订阅专栏

《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》- 将语言模型与战略推理相结合，在外交游戏中进行人类水平的游戏

论文信息
摘要
1. 介绍部分
2. 人类与人工智能在外交领域合作的挑战
3. 外交游戏
4. Cicero 概述
5. 方法
6. 匿名人类游戏中的 Cicero
7. 讨论
8. 伦理考虑

论文信息

题目：《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》
作者：Meta Fundamental AI Research Diplomacy Team (FAIR)
期刊：Science
发表时间：9 December 2022
官方代码：https://github.com/facebookresearch/diplomacy_cicero；
内容概述：这篇研究论文报告了一个名为 Cicero 的AI系统在桌游外交游戏中达到了人类水平的表现。

摘要

尽管在模仿人类语言方面取得了很大进步，但构建能够与人类在交互环境中有意识地进行通信的代理仍然是一个重大挑战。我们提出了 Cicero，这是第一个在外交游戏中达到人类水平表现的 AI 代理，外交游戏需要在七个玩家之间进行自然语言协商和战术协调，既需要合作又需要竞争。Cicero 将语言模型与计划和强化学习算法相结合，通过推断其对话中的玩家的信念和意图来生成对话以追求其计划。在一个匿名的在线外交联赛的 40 场游戏中，Cicero 的平均得分是人类玩家的两倍多，在参与一场或多场游戏的参与者中名列前 10%。

1. 介绍部分

人工智能（AI）领域的一个主要长期目标是建立能够用自然语言与人类进行计划、协调和谈判的代理。尽管在模仿人类语言的语言模型方面已经取得了很大进展（1），但有效的谈判代理必须超越这一点，理解对方的信念、目标和意图；规划考虑到合作伙伴目标的联合行动；并有说服力地、有意地传达这些建议。

我们推出了 Cicero，一款在策略游戏《外交》中实现了人类水平表现的 AI 代理。在《外交》中，七名参与者进行私人自然语言谈判，以协调他们的行动，以便相互合作和竞争。相比之下，多智能体人工智能之前的重大成功都是在纯粹的对抗性环境中进行的，例如国际象棋 (2)、围棋 (3) 和扑克 (4)，在这些环境中，通信没有价值。由于这些原因，外交已成为多智能体学习的一个具有挑战性的基准（5-8）。

Cicero 将可控对话模块与战略推理引擎结合起来。在游戏的每个时刻，Cicero 都会根据游戏状态和对话来模拟其他玩家可能采取的行动。然后，它计划参与者如何协调以实现共同利益，并将这些计划映射为自然语言消息。

2022 年 8 月 19 日至 10 月 13 日期间，我们以匿名方式参加了 Cicero 参加的人类玩家在线联盟的 40 场外交比赛。在 72 小时的比赛过程中，发送了 5277 条消息，Cicero 在参与者中排名前 10%。玩了不止一场比赛。

2. 人类与人工智能在外交领域合作的挑战

几乎所有先前的游戏人工智能突破都是在两人零和（2p0s）设置中进行的，包括国际象棋（2）、围棋（3）、单挑扑克（9、10）和星际争霸（11、12））。在有限 2p0s 游戏中，某些通过与自身对战来学习的强化学习 (RL) 算法（这一过程称为“自我对战”）将收敛到在平衡游戏中的预期中无与伦比的策略 (13)。换句话说，任何有限的 2p0s 游戏都可以通过具有足够计算和模型能力的自我对弈来解决。

然而，在涉及合作的游戏中，即使具有无限的计算和模型容量，在没有人类数据的情况下，自我对弈也不再能保证找到与人类表现良好的策略，因为自我对弈代理可能会收敛到不兼容的策略符合人类的规范和期望。在涉及语言的环境中可以清楚地看到这种效果，之前的研究发现，尽管智能体取得了很高的任务成功率，但自我博弈会产生无法解释的语言 (14, 15)。即使在《外交》的无对话版本中，我们也发现在 2p0s 版本的游戏中实现超人性能的自我对弈算法在多人游戏中表现不佳，因为学习的策略与潜在人类盟友的规范和期望不一致 (16, 17)。因此，外交的一个主要挑战是开发一种方法，以产生与人类兼容的语言和行为的方式，利用自我博弈的潜在好处。

维持人类可解释的通信的挑战在《外交》中尤其严峻，在《外交》中，我们的代理平均每场比赛发送和接收 292 条消息（图 S8）。游戏中的信息通常涉及协调精确的计划，任何沟通不畅都可能导致计划失败。代理发送的每条消息都必须基于（上下文适当且一致）冗长的对话历史、游戏状态（包括提出的假设状态）和目标。如果消息的依据不准确，人们可能会要求智能体解释其错误（这是一项具有挑战性的任务，可能会导致进一步的错误），或者选择与其他人合作。此外，重复的消息传递会产生反馈循环，其中语言模型会模仿其之前消息的风格，例如，发送简短或不连贯的消息将增加将来出现此类消息的可能性（18）。过去关于战略对话系统的工作通过关注更简单的设置（14、19-21）来避免这些问题，这些设置仅涉及单个人类伙伴、较短的对话历史和更简单的策略。

最后，外交是一个特别具有挑战性的领域，因为成功需要在鼓励玩家不信任任何人的环境中与他人建立信任。每个回合的行动在不具约束力的私人谈判后同时发生。为了取得成功，代理必须考虑玩家可能不遵守诺言的风险，或者其他玩家本身可能怀疑代理的诚实性的风险。因此，推理他人的信念、目标和意图的能力以及通过对话说服和建立关系的能力是外交中的强大技能。

3. 外交游戏

《外交》是一款棋盘游戏，七名玩家通过将自己的部队移入其中来竞争控制地图上的供应中心 (SC)。玩家通过控制大多数 SC 来获胜。当所有剩余玩家同意平局或达到回合限制时，游戏也可能结束，在这种情况下，分数由每个玩家控制的 SC 数量决定。

每回合，所有玩家在谈判期间与其他玩家进行私人的成对自由对话，然后所有玩家同时选择一个行动，其中每个他们控制的单位包含一个命令。一个单位可以支持其他单位，包括另一个玩家的单位，这构成了外交中大部分谈判的基础。补充材料 (SM)、材料和方法，C 节中提供了规则的详细说明。

4. Cicero 概述

在高层次上，Cicero 将对话模块与策略推理模块以及拒绝低质量消息的过滤过程结合起来。图 1 提供了西塞罗图。
在这里插入图片描述

图 1. Cicero 的架构。 Cicero 根据棋盘状态和对话预测每个玩家可能的人类行为，并将其作为使用 RL 训练模型的规划算法的起点。规划的输出是智能体的行动以及对其他参与者行动的信念，这些信念用于选择对话模型的意图。生成的候选消息在发送最终消息之前会经历多个过滤步骤。

4.1 对话

Cicero 使用预先训练的语言模型生成对话，该模型根据人类外交游戏的对话数据进行了进一步训练。至关重要的是，除了基于对话历史和游戏状态之外，对话模型还经过训练，可以通过意图进行控制，我们在这里将其定义为代理及其对话伙伴的一组计划动作。这是通过自动增加具有推断意图的人类数据并在训练期间使用这些信息作为进一步调节来实现的。例如，显示代理在其说话伙伴的支持下进入保加利亚领土（“BUL”）的意图可能会产生诸如“作为回报，你能支持我进入 BUL 吗？”之类的消息。以意图为基础，对话模型免除了大部分学习哪些行为是合法且具有战略利益的责任。特别是，这种控制在对话生成和策略推理之间提供了一个接口。

4.2 战略推理

Cicero 使用战略推理模块来智能地选择意图和行动。该模块运行一个规划算法，根据迄今为止的游戏状态和对话来预测所有其他玩家的策略，同时考虑不同行动的强度及其在人类游戏中的可能性，并为 Cicero 选择最佳行动这是基于这些预测的。规划依赖于通过自我对弈强化学习训练的价值和策略函数，该函数会惩罚偏离人类行为太远的智能体，以维持与人类兼容的策略。在每个协商期间，每次 Cicero 发送或接收消息时都会重新计算意图。在每个回合结束时，Cicero 都会发挥其最近计算的意图。

4.3 消息过滤

Cicero 将每条生成的消息传递给多个过滤器，这些过滤器旨在限制无意义、与意图不一致或策略性较差的消息。

5. 方法

5.1 数据

我们在 webDiplomacy.net 上获得了包含 125,261 场在线外交游戏的数据集。其中，有 40,408 款游戏包含对话，玩家之间总共交换了 12,901,662 条消息。玩家帐户被取消识别，并且由 webDiplomacy 执行个人身份信息 (PII) 的自动编辑。我们将此数据集称为 WebDiplomacy。

5.2 意图控制对话

Cicero 通过神经生成外交对话模型生成消息，该模型经过训练可通过一组意图进行控制。

5.2.1 模仿对话模型

我们将 R2C2 (22) 作为我们的基础模型——一个基于 Transformer 的 27 亿参数 (23) 编码器-解码器模型，使用 BART 去噪目标 (24) 对来自互联网的文本进行预训练。然后通过标准最大似然估计在 WebDiplomacy（方法、数据）上进一步训练基本预训练模型。具体来说，使用数据集 ${[\mathbf{x}^{(i)}, \mathbf{y}^{(i)}]}$ ，模型被训练来预测在时间 $t$ 从玩家 $A$ 到玩家 $B$ 的对话消息 $y (i)$ ，假设以下所有内容都表示为文本 $x (i)$ ：对话历史记录（所有交换的消息在玩家 $A$ 和其他六名玩家之间，直到时间 $t$ )；游戏状态和动作历史（当前游戏状态和最近的动作历史）；玩家评级（ $A$ 的评级对应于 WebDiplomacy 中的游戏计算得出的 Elo 评级）；游戏和消息元数据（有关游戏设置和当前消息的附加信息，例如自上次消息以来的时间和当前回合）。此外，模型还以意图为条件（玩家 $A$ 和 $B$ 在当前回合和未来回合中建议采取的一组行动，代表消息 $y (i)$ 的意图）。 SM 的 D.1 节提供了有关训练数据、训练过程、相关超参数、采样过程和其他推理时间方法的更多详细信息。

在游戏过程中，我们使用了额外的模块来控制何时说话以及对谁说话，这些模块在 SM 的 D.4 节中进行了描述。

5.2.2 通过意图可控的对话模型

在这里插入图片描述

图 2. 意图控制对话的训练和推理过程图示。动作被指定为单位命令字符串；例如 “NTH S BEL - HOL” 表示 North Sea 将支持 Belgium 飞往 Holland。 (A) 训练 “意图模型” 来根据一对玩家的对话来预测他们的行动。训练数据仅限于对话被视为 “真实” 的子集（SM，D.2.3 节）。 (B) 对话训练数据集中的每条消息都用迄今为止对话的意图模型的输出进行了注释，并在最后注入了一条协议消息。 © 对话模型经过训练，可以在给定目标消息的注释意图的情况下预测每个数据集消息。 (D) 在游戏过程中，意图由规划模块提供。

标准语言建模方法只会训练我们的对话模型来模仿数据集中的消息，但不会超越它们。为了超越模仿学习，我们通过根据战略推理模块（意图）指定的计划生成消息来使对话模型变得可控，从而产生更高质量的消息。更具体地说，如果 z 是发送者和接收者在当前回合和未来几个回合中最有可能采取的一组动作（如果在接收到消息后没有发生进一步的对话），则消息被定义为具有意图 z。为了建立这种控制，我们开发了一些技术，可以使用与消息内容相对应的一组动作自动注释训练集中的每条消息。在训练过程中，对话模型学习了分布 $p_{\theta}[\mathbf{y}^{(i)} | \mathbf{x}^{(i)}, \mathbf{z}^{(i)}]$ ，其中 $\mathbf{z}^{(i)}$ 表示数据点 $[\mathbf{x}^{(i)}, \mathbf{y}^{(i)}]$ 的意图；因此，在推理时，时间 $\mathbf{z}$ 提供了对生成的控制点 (25)。我们稍后描述训练和推理过程，这也在图 2 的流程中进行了说明。图 3 演示了意图对生成的对话的影响；对不同计划行动的调节会产生不同的信息。
在这里插入图片描述

图 3. 意图对 Cicero 对话的影响。图为同一游戏情境中的三种不同的可能意图。在每种情况下，我们都显示了 Cicero（英格兰; 粉红色）向法国（蓝色）、德国（橙色）和俄罗斯（紫色）生成的消息，条件是这些意图。每个意图都会导致完全不同的消息，这些消息与预期的操作一致。

我们在开发过程中考虑了其他意图概念，例如控制消息以专注于特定的操作子集、第三方操作或具有特定的语气。更丰富的意图更难在人类消息上注释，更难使用规划模块进行选择，并且会产生更大的风险，使语言模型发散。

5.2.3 用意图注释训练消息

当用相应的意图注释训练数据中的消息时，我们的目标是让建议的动作 $\mathbf{z}(i)$ 密切反映消息 $\mathbf{y}(i)$ 的内容，以便在训练时，模型学会利用 $\mathbf{z}(i)$ 。

天真地，我们可以使用发送者和接收者在意图范围内每个回合结束时所采取的实际行动。但是，如果 (i) 消息不诚实或 (ii) 后续消息改变了发送者的计划，则这些操作可能无法反映消息的内容。为了解决 (i)，我们根据在数据集的 “真实” 子集上训练的对话条件动作预测模型来预测最可能的动作，其中我们预测玩家的对话不会欺骗其他人（SM，D.2 部分）。这如图 2A 所示；我们将此模型称为意图模型。为了解决（ii）问题，我们将这个意图模型看到的对话历史限制在有问题的信息上，该消息向模型发出信号以预测操作，就好像对话在那个时间点已经结束一样。我们还在对话历史中添加了表明双方达成结论性协议的消息（图 2B）。因此，我们获得了注释为消息意图的动作与内容之间的高度对应性，从而实现了在一个旨在测量这种对应关系的小型测试集上，得分为 97%（相比之下，更简单的基线为 77%）（表 S2）。然后，可以按照上一节模仿对话模型和图 2C（SM，D.2节）中描述的方式训练对话模型。

5.2.4 在游戏过程中选择意图

在游戏过程中，Cicero 使用策略推理模块来选择当前回合的意图动作（图 2D），而未来回合的意图动作是通过人类模仿模型生成的。

5.2.5 当前回合的代理意图操作

Cicero 考虑了其策略信念下极有可能采取的接收者行动的子集。高可能性要求某个动作被认为对接收者有利或他们被认为在给定对话的情况下可能会执行该动作。在这个限制集中，Cicero 选择了对其自身具有最高期望值的接收者动作（SM，D.2.4 节）。

5.2.6 对话建模结果

我们将对话模型的性能与没有意图基础的基线和没有意图或游戏状态基础的基线（“语言模型”）进行了比较。我们报告了验证集的困惑度和对话质量评分，这些评分是根据 126 个外交游戏场景中生成的消息的专家注释计算得出的。专家被要求标记一条消息是否（i）与游戏状态一致，（ii）与代理的计划一致，以及（iii）与普通人相比，质量是否显着提高。结果如图 4 所示，SM 的 D.2.3 节提供了有关此评估的更多详细信息。我们的模型在所有指标上都优于基线。验证困惑度的改善表明该模型可以使用额外的基础信息来更好地预测人类消息。专家注释表明，意图和游戏状态提供的基础信息可以产生与智能体预期行动高度一致的更高质量的消息。
在这里插入图片描述

图4 可控对话建模结果。我们报告 Cicero 对话模型验证集的对话质量评级和困惑度，并将它们与没有意图基础的基线和没有意图或游戏状态基础的基线（“语言模型”）进行比较。对话质量评级是根据专家对 126 种情况下生成的消息的注释计算得出的；我们报告标记为与游戏状态一致、与下一步行动计划一致以及特别高质量的消息的百分比（在过滤之前）。较低的困惑度对应于更多的真实人类信息的概率质量。

5.3 战略推理

为了生成对话的意图并选择每个回合的最终动作，Cicero 运行了一个战略推理模块，根据棋盘的状态和共享对话预测当前回合的其他玩家的策略（行动的概率分布），然后为自己选择当前回合的策略，以最佳方式响应其他玩家的预测策略。与人类玩家一起做这件事需要预测人类将如何玩。合作游戏中的一种流行方法是通过对人类数据的监督学习来模拟其他玩家的策略，这通常称为行为克隆（BC）。然而，纯粹的 BC 是脆弱的，特别是因为监督模型可能会学习对话和动作之间的虚假相关性（图 S6）。为了解决这个问题，Cicero 使用 piKL (26) 的变体来模拟玩家的策略。 piKL 是一种迭代算法，它通过假设每个参与者 $i$ 寻求最大化其策略 $\pi_i$ 的期望值并最小化 $\pi_i$ 与 BC 策略（我们称之为锚定策略 $\tau_i$ ）之间的 Kullback-Leibler (KL) 差异来预测策略。锚固强度参数 $\lambda \in [0, \infty)$ 在这些相互竞争的目标之间进行权衡。

5.3.1 piKL：KL-正规化规划

piKL 是一种预测玩家策略的迭代算法。该算法的完整描述可以在 SM 的 E.1 节中找到。 piKL 将外交中的每一回合视为自己的子游戏，其中每个玩家 $i$ 同时选择一个动作 $a_i$ ，导致联合动作 $a = (a_1, ..., a_n)$ ，然后每个玩家 $i$ 收到奖励 $u_i(a)$ 由值函数 $u_i$ 确定。我们稍后将讨论该价值函数的训练。

piKL 假设玩家 $i$ 寻求最大化修改后的效用函数的策略 $\pi$
$U_i(\pi_i, \pi_{-i}) = u_i(\pi_i, \pi_{-i}) - \lambda D_{KL}(\pi_i || \tau_i)$
其中 $\pi_{-i}$ 表示除 $i$ 之外的所有参与者的策略， $u_i(\pi_i, \pi_{-i})$ 是在其他参与者玩 $\pi_{-i}$ 的情况下 $\pi_i$ 的期望值。具体来说，令 $Q_t^{t-1}(a_i) = u_i(a_i, \pi_{-i}^{t-i})$ ，同时令
$\pi_i^{\Delta t}(a_i) \propto \tau_i(a_i) exp [\frac{Q_t^{t-i}(a_i)}{\lambda}]$
在每次迭代 $t$ 中，piKL 都会将其对参与者联合策略的预测更新为
$\pi^t = (\frac{t-1}{t})\pi^{t-1} + (\frac{1}{t}) \pi^{\Delta t}$
piKL 可证明收敛于修改后的效用空间中的平衡点 (26)。当锚定强度 $\lambda$ 设置为较大值时，piKL 预测玩家 $i$ 的策略将接近锚定策略 $\tau_i$ 。当 $\lambda$ 很小时，piKL 预测玩家 $i$ 的策略将具有较高的期望值，并且可能会大幅偏离 $\tau_i$ 。

piKL 的泛化称为分布 Lambda piKL (DiL-piKL)，用 $\lambda$ 值的概率分布替换 piKL 中的单个 $\lambda$ 参数（SM，E.1.3 节）。在每次迭代中，每个玩家都会从其分布中采样一个 $\lambda$ 值。在实践中，我们发现这可以带来更好的性能（17）。

5.3.2 对话条件规划

由于对话会影响 BC 策略（锚定策略 $\tau_i$ ），因此 piKL 提供了一种对话机制来影响策略预测。Cicero 和另一个玩家之间不同的可能消息可能会产生不同的锚定策略（图 5），这最终给出了关于该玩家将做什么的不同的最终预测。
在这里插入图片描述

图 5. 对话对 Cicero 战略规划和意图的影响。Cicero（法国；蓝色）和英格兰（粉色）纠缠在一起，但如果他们能够脱离冲突，对双方都有好处。Cicero 刚刚给英格兰队发信息：“你想取消这场战斗吗？我可以让你专注于俄罗斯，我可以专注于意大利。”图为英格兰可能采取的三种应对方式以及 Cicero 如何适应每种方式。（左和中）由于 Cicero 的规划以对话条件政策模型为基础，因此它对其他参与者的预测以及相应的其自己的计划都是灵活的，并且能够响应与其他参与者的谈判。（右）但 Cicero 也避免盲目相信其他参与者的提议，拒绝那些预测价值低且与自身利益相悖的计划。

其他玩家当然可能会欺骗他们的计划。 Cicero 没有明确预测消息是否具有欺骗性，而是依靠 piKL 根据 BC 策略（以消息为条件）以及是否偏离 BC 策略来直接预测其他参与者的策略将使该玩家受益。

由于《外交》中的对话是在玩家之间私下进行的，因此 Cicero 必须推断玩家在做出预测时可以获得哪些信息。例如，如果 Cicero 正在与盟友协调对对手的攻击，那么 Cicero 对对手政策的预测必须考虑到对手不知道预期的协调。Cicero 通过成对 piKL 预测其他参与者的策略来实现这一目标。

具体来说，在战略规划过程中，对于每个玩家 $j$ ，Cicero 根据共享对话、棋盘状态和最近的行动历史记录为自己和玩家 $j$ 计算了一个锚定策略。然后，Cicero 为两名玩家运行 DiL-piKL 来预测玩家 $j$ 的策略。在每次迭代中，Cicero 假设其余 5 个玩家将根据 RL 计算的策略进行游戏，以 Cicero 和玩家 $j$ 的策略为条件。这个过程对每个参与者的策略进行了独立的预测。

接下来，Cicero 解释了参与者的政策不独立，因为他们有能力通过 Cicero 没有观察到的私人对话来关联他们的行为。 Cicero 通过自我归一化重要性采样为所有其他参与者构建近似联合策略来实现这一目标：我们从其他参与者的独立 piKL 策略中采样了 $N = 1000$ 个联合行动 $a$ ，并通过 $a$ 在相关和下的似然比对它们进行了重新加权。分别是独立的 RL 策略。

最后，Cicero 选择了最能响应其他参与者预测的联合政策 $\pi_{-i}$ 的动作 $a_i$ ，同时仍尽可能与其对话保持一致。具体来说，Cicero 选择了动作 $argmax_{a_i} u_i(a_i, \pi_{-i}) + \lambda log\tau_i(a_i)$ ，其中 $u_i$ 是 RL 值函数， $\tau_i(a_i)$ 是对话条件模仿策略下动作的概率， $\lambda = 3 × 10^{−3}$ 。Cicero 使用较小的 $\lambda$ 来规范其最佳响应，而不是计算其他参与者的策略；因此，对话更强烈地告知了 Cicero 对其他参与者如何协调的期望，同时当它预测人类在其情况下最有可能选择的行动不是最理想时，仍然允许 Cicero 有更多的偏离余地。

5.3.3 用于改进值估计的自我对弈 RL

应用 piKL 需要一个状态值函数。自我游戏为训练这种价值函数提供了一种途径，但存在与人类游戏不兼容的风险 (16, 17)。为了解决这个问题，我们在自我对弈中使用 piKL 来保持策略与人类兼容。

在《外交》中进行自我对战的一个挑战是，玩家可能会在与其他玩家对话的基础上调整自己的行动，包括协调联合行动。在强化学习中，显式模拟对话的成本极其高昂。然而，一个关键的见解是，在人类数据的联合动作分布上训练的联合、共享的 BC 策略已经通过直接对动作分布进行建模，隐式地捕获了对话对人类玩家动作分布的影响。

因此，我们开发了相关和共享（CoShar）piKL，它允许对所有玩家共享的联合相关锚定策略进行规范化，而不是针对每个玩家的策略。这样，我们依靠联合锚定策略来捕获所有玩家策略之间的相关性。具体来说，CoShar piKL 与标准 piKL 的不同之处在于，策略 $\pi^{\Delta t}$ 中联合行动 $a = (a_1, ..., a_n)$ 的概率变为
$\pi^{\Delta t}(a) \propto \tau(a) exp [\Sigma_{isn} \frac{Q_t^{t-1}(a_i)}{\lambda}]$
我们发现 CoShar piKL 保留了联合锚定策略 t 中存在的大部分相关性，同时比单独模仿更好地模拟了强大的人类游戏。

我们最终的自我对弈算法的运行方式与 AlphaZero (27) 和 ReBeL (28) 类似，通过应用“循环中”规划作为 RL 的改进算子。在我们的案例中，规划是使用 CoShar piKL 的近似版本。我们生成了自我对弈轨迹，在每个回合中我们使用学习的状态值模型计算 CoShar piKL 策略。我们将联合政策模型回归到该政策，并将价值模型回归到该政策下所有参与者的预期价值。然后，我们从该策略中采样联合行动，以生成轨迹中的下一个状态。锚定策略在整个训练过程中都是固定的，以将 RL 锚定在人类游戏附近（SM，E.4 节）。

5.4 消息过滤

先前的工作表明，神经语言模型存在矛盾和不一致，以及产生 “幻觉” 或生成实际上不正确的信息的倾向（29）。在复杂的外交领域，对话模型既表现出这些问题，也表现出其他更微妙的错误，例如偏离控制信息的意图或信息的战略内容中的错误。我们通过使用一系列分类器过滤生成的消息并检查以检测常见问题来解决此问题。我们在这里概述了其中几个过滤器，并在 SM 的 D.3 节中提供了更多详细信息。

5.4.1 区分人类文本和反事实

许多工作都使用对抗性或反事实的例子来提高自然语言系统的稳健性 (30, 31)。按照这种方法，我们生成了多种反事实消息，其中包含语言模型容易出现的错误，包括启发式损坏的文本以及模型生成的负数。我们训练了一套 16 个分类器来区分真实的人类消息和不同类型的反事实消息（有时改变可用的随机种子或上下文信息），并在集合中使用这些分类器来过滤消息。这种方法存在过度过滤包含精确计划的复杂消息并接受平淡消息的风险，例如 “好的”，这些消息不太可能包含错误。然而，我们发现，精心设计我们的集成使我们能够过滤大多数无意义的消息，同时对消息复杂性的影响最小：在包含 362 个专家注释示例的小型评估集上，我们发现我们可以检测到 83%无意义的消息，对消息多样性没有实质性影响，这是通过消息长度和对外交特定实体的引用数量来衡量的（SM，D.3.1 节）。

5.4.2 意图对应

如前所述，通过意图控制对话生成具有双重好处，即提高消息的战略价值并减少对不可能的举动或其他幻觉的讨论。然而，这种控制是不完美的，对话模型可能会生成与其所条件的意图相矛盾的消息。为了解决这个问题，我们过滤了消息，以减少意图中的操作的可能性。在包含 1013 条专家注释消息的小型测试集上评估此方法，我们实现了 65% 的召回率，过滤了所有消息的 24%（SM，D.3.2 节）。

5.4.3 基于值的过滤

以意图为条件可能会导致 “信息泄漏”，即智能体向对手透露有关其计划的不利信息（在游戏过程中选择意图部分）。为了缓解这种情况，我们开发了一种根据潜在消息的估计价值影响对潜在消息进行评分的方法。我们在每条候选消息之后计算所有代理的 piKL 策略，并过滤那些导致 Cicero 执行其预期操作的预期值 (EV) 较低的策略。对 127 个对话场景的专家评估表明，在 62% 的情况下，接受的消息优于过滤的消息 (P < 0.05)（SM，D.3.3 节）。

6. 匿名人类游戏中的 Cicero

2022 年 8 月 19 日至 10 月 13 日，Cicero 匿名参加了 webDiplomacy.net 上 “闪电战” 联盟的 40 场外交比赛。该联盟以 5 分钟的谈判回合进行；这些时间控制使游戏能够在 2 小时内完成。Cicero 在参加一场以上比赛的球员中排名前 10%，在参加 5 场或以上比赛的 19 名球员中排名第二。在所有 40 场比赛中，Cicero 的平均得分为 25.8%，是 82 名对手平均得分 12.4% 的两倍多。作为联盟的一部分，Cicero 参加了 21 名参赛者参加的 8 场比赛，其中 6 人至少打了 5 场比赛。参赛者最多可以参加六场比赛，排名由他们最好的三场比赛的平均成绩决定。Cicero 在这次比赛中获得第一名。

在游戏过程中，玩家无法看到其他玩家的用户名。尽管 webDiplomacy 通知用户该网站已参与人工智能研究，并且某些游戏模式允许用户与人工智能代理一起玩，但我们在与人类的游戏中评估了 Cicero，其中参与者没有明确告知他们正在与人工智能代理一起玩对于那个特定的游戏。在研究结束时，Cicero 作为 AI 的参与向所有玩家透露（SM，A.4 节）。

7. 讨论

Cicero 成功地将战略推理和对话结合起来，在复杂的任务上与人类合作和谈判，在外交游戏中取得了人类水平的出色表现。此外，Cicero 以人类玩家的身份与 82 名不同的玩家进行了 40 场外交游戏，并且游戏中没有任何消息表明玩家相信他们正在与人工智能代理一起玩。一名球员在赛后聊天中提到，怀疑 Cicero 的一个账户可能是机器人，但这并没有导致 Cicero 被联盟中的其他球员检测为人工智能代理。
在这里插入图片描述

图 6. 成功的对话示例。Cicero（左）在测试游戏中与本文作者协调和（右）谈判的示例。

图 6 显示了协调和谈判的两个例子。在协调示例中，我们观察到 Cicero 通过讨论长期战略来建立联盟。在谈判的例子中，Cicero 通过提出互惠互利的举措，成功地改变了对方的想法。尽管不诚实在外交中很常见，但我们能够通过战略推理模块控制代理的对话，使其在很大程度上诚实并对其说话伙伴有所帮助，从而实现人类水平的表现。

尽管 Cicero 在与人类合作方面被证明是有效的，但它偶尔会发送包含基本错误、与其计划相矛盾或在其他方面策略不佳的信息。尽管我们使用一套过滤器减少了错误，但外交为研究这个问题提供了一个有趣的基准。我们怀疑，由于游戏施加的时间压力，以及人类偶尔会犯类似的错误，这些错误并没有引起人们对 Cicero 是人工智能代理的进一步怀疑。因此，谈判周期较长的外交形式可能会给未来的工作带来进一步的挑战，因为参与者通常会在这些形式中进行更详细和复杂的谈判。

从战略角度来看，Cicero 纯粹根据玩家当前回合的行动来推理对话。它没有模拟对话如何在游戏的长期过程中影响与其他玩家的关系。考虑到这一点可能会让它更有战略性地部署对话。此外，我们意图表达的表达能力限制了 Cicero 控制更丰富的对话可供性的能力，例如战略性地揭示信息、提出问题或为其行为提供解释。有意使用对话仍然存在许多悬而未决的问题，外交提供了一个丰富的测试平台来探索策略和沟通之间的联系，其目标是改善人类和代理人之间的协调。