Google DeepMind 智能体思考快与慢：说话者-推理者架构(Agents Thinking Fast and Slow: A Talker-Reasoner Architecture)-CSDN博客

本文链接：https://blog.csdn.net/qq_29868553/article/details/144516212

在这里插入图片描述

原文地址

摘要

大型语言模型使各种代理能够通过自然对话与用户进行交互。因此，代理人现在有两项工作：对话和计划/推理。他们的对话反应必须基于所有可用信息，他们的行动必须有助于实现目标。与用户交谈和进行多步骤推理和规划之间的这种二分法可以被视为类似于卡尼曼[14]引入的“快思考和慢思考”的人类系统。我们的方法由一个快速且直观的“Talker”代理（系统 1）组成，其任务是合成对话响应； “推理者”智能体（系统 2）速度较慢、更加深思熟虑且更具逻辑性，其任务是进行多步骤推理和规划、调用工具、在世界中执行操作，从而产生新的智能体状态。我们描述了新的 Talker-Reasoner 架构并讨论了它的优点，包括模块化和减少延迟。我们以睡眠辅导机构为背景进行讨论，以证明现实世界的相关性。

1 Introduction

人类有能力进行两种截然不同的思维。一方面，我们可以做出快速判断，例如对超速行驶的汽车做出反应或识别心烦意乱的同事的情绪暗示。另一方面，我们可以解决复杂的问题，例如计划假期和进行复杂的乘法运算。著名的行为科学理论提出，有两种不同的系统驱动这些能力：快速而直观的系统 1 和缓慢而深思熟虑的系统 2 [14]。介绍该理论的丹尼尔·卡尼曼 (Daniel Kahneman) 对两种思维模式的两个系统进行了如下描述：“系统 1 自动且快速地运行，很少或根本不需要努力，也没有自主控制感。系统 2 将注意力分配给需要费力的心理活动，它代表了有意识的推理自我，有信念、做出选择、决定思考什么和做什么。”

尽管困难问题可能更多地依赖于系统 2，而日常技能可能更多地依赖于系统 1，但大多数认知过程都是这两种推理的混合。系统1不断地为系统2产生建议：印象、直觉、意图和感受。如果得到系统2的认可，印象和直觉就构成了系统2明确信念的基础，而意图则变成了系统2深思熟虑的选择。

许多强化学习 (RL) 问题也可以从类似的双系统方法中受益。大型语言模型 (LLM) [1,6,32] 的快速发展使各种人工智能 (AI) 代理成为可能，从 AI 编码伙伴到导师和健康教练。这些智能体有望通过语言理解世界的复杂模式，并有可能感知其他异构多模态信号，产生印象，创建连贯的思想模式，并产生对话（积极添加其他模态）。这类似于连贯搜索系统 1。另一方面，人工智能代理应该执行复杂的多步骤推理，并做出涉及调用工具、主动从外部数据源检索信息并解决复杂问题的决策。这类似于更慢、更审慎的系统 2。

在使智能体能够进行对话、推理和计划的背景下，在这项工作中，我们考虑了一种双系统方法，通过两种思维模式来实现这些能力。因此，我们将智能体分为两个智能体：快速且直观的 Talker 智能体和较慢且深思熟虑的 Reasoner 智能体。 Talker 代理专注于与用户生成自然且连贯的对话并与环境交互，而 Reasoner 代理专注于基于 Talker 提供的环境信息执行多步骤规划、推理和形成信念。 Talker 代理（系统 1 中的一个）可以访问内存，启动其响应。

与系统 1 和系统 2 的思维模式类似，Talker 和 Reasoner 代理之间的分工是高效的：它最大限度地减少了工作量并优化了性能。这种划分的另一个好处是，Talker 可以进行对话，同时从环境中获得更多观察结果，而无需等待 Reasoner 智能体缓慢的推理和信念形成。这类似于行为科学双系统方法，系统 1 始终处于开启状态，而系统 2 仅以其容量的一小部分运行。类似地，发话者始终处于开启状态并与环境交互，而推理者仅在发话者等待或可以从内存中读取时更新信念，通知发话者。这种分工在大多数情况下都很有效，因为 Talker 通常非常擅长它所做的事情：它可以自动从内存中获取信息，有效地启动其底层模型以对熟悉的情况做出良好的响应。然而，该框架有其局限性。说话者的世界观更加过时，存在固有的偏见，有时可以回答比提出的问题更容易的问题。此外，它对复杂问题的解决和规划知之甚少。因此，我们引入了一个变量，允许发话者等待推理器，以防发话者在形成响应之前需要进行系统 2 思考。

为了评估所提出的双系统 Talker-Reasoner 框架，我们的工作基于睡眠辅导代理通过对话与用户交互的现实世界设置。我们讨论这种分工的成功案例，包括由说话者驱动的快速直观的对话以及由推理者制定的复杂计划和信念状态。我们还讨论了类似于双系统思维机器的情况，推理者（系统 2）可能需要覆盖说话者（系统 1）。在 AI 辅导环境中，当用户请求 Reasoner 需要在 Talker 能够响应之前完成复杂的辅导计划时，这可能很有用。

在这里插入图片描述

图 1：所提出的双系统 Talker-Reasoner 方法的图示。

2 Related Work

用于代理规划的大型语言模型。受LLMS[6]强大的应急能力的启发，如零射击提示[15]、上下文学习[5]和复杂推理[37，43]，LLM驱动的代理的研究受到了极大的关注[36，40，2，25，21，34，35，24，4]。与本文最相关的工作是关于基于文本的代理[25，39，22]，尽管随着模型变得真正的多模式[36，2，34，19，27，30，28]，关于真实世界的具体化代理的大量工作[16]越来越相关。Reaction[39]使用思维链(CoT)提示[37]，并使用LLMS生成推理轨迹和特定于任务的操作(例如，要调用的工具)。Reflexion[26]扩展了带有自我反思的反应，以改进推理。AutoGPT[38]是一个工具，用于通过制定完成高级目标的子目标课程来实现任务自动化，并连接到分层推理。所有这些工作都缺乏(I)边讲边推理/规划和(Ii)明确的信念建模，这些都是我们框架中的关键组成部分。我们代理的(I)说话方面将我们的工作与基于自然语言的反馈代理的先前工作联系在一起[26，40]。与[40]类似，我们的代理迭代地合并环境反馈，以在闭环过程中修改后续计划。然而，我们并不使用RL来更新所有未来计划，而只是通过用反馈增强上下文中学习的LLM的上下文来为单个用户调整跨会话计划。我们工作的(Ii)明确的信念建模方面与心理理论[23，8，18]和大量的世界建模工作[7，10，12，42]有关，因为在我们的案例中，世界围绕着用户，代理建立了其他代理(即人类)的代理模型来推理他们的行为。特别是，推理者以结构化对象或模式的形式持续更新其关于用户的目标、计划、障碍、动机的信念[43]，类似于过去工作中的世界和用户模型[11、10、42]。我们还没有建立关于信念的信念模型(例如，用户认为代理的想法，等等)，或者使用世界模型来预测未来的行动；这留给了未来的工作。

3 The Talker-Reasoner Agent Model

在我们介绍分别对应于快速思维和慢速思维的双系统 Talker-Reasoner 代理框架（第 3.2 节）之前，我们首先形式化一个能够说话和系统 1 推理以及系统 2 多语言的基于单一语言的代理。步骤推理和规划对于解决复杂问题很有用（第 3.1 节）。

3.1 基于单一语言的智能体与人类交互：通过推理和规划协同对话和提取信念

让我们考虑一个基于语言的人工智能代理，它可以通过自然语言对话与用户交互，帮助他们完成某些任务。代理应该能够进行多步骤推理和规划，以便能够解决任务，并且能够向用户生成对话响应。由于大型语言模型的引入，这种代理推理/规划和对话的范式变得更加普遍[41,32,1,31,33,29]。我们提出了这种谈话推理范式的强化学习（RL）表述。我们还扩展了该范式，包括对代理对用户的信念进行显式建模，例如用户的动机、情感和目标，这些可以指导谈话和推理。图 2 显示了与用户交互的基于语言的代理的整体概述，我们将在下面详细描述。

在这里插入图片描述

图 2：基于 LLM 的单个代理，在多步骤推理时对话并提取信念状态。

我们构建了一个基于语言的代理，该代理能够在部分可观察的强化学习框架中进行推理、交谈和显式信念建模。代理持续与世界 $\mathcal{E}$ 互动。这个世界包括代理正在互动的用户以及允许代理检索现实世界知识的知识库（如万维网）。代理对世界只有部分的观察，因此会形成关于当前世界状态的信念 $\in \mathcal{B}$ 。它可以通过语言与用户互动来了解更多关于用户的信息（未来的工作将增加其他模态）。假设 $\mathcal{L}$ 代表语言空间；代理从用户接收观察 $\in \mathcal{O}$ ，这些观察存在于语言空间 $\mathcal{O} \subset \mathcal{L}$ 中。观察可以包含信息和自然语言反馈/奖励（例如，“我不喜欢这个”，以及“你能在我的计划中添加其他东西吗？”）。我们将其形式化为 $\hat{\mathcal{O}} = \mathcal{O} \cup \mathcal{R}$ ，其中观察 $\in \mathcal{L}$ 和奖励 $\in \mathcal{L}$ 。这些观察 $\hat{o} \in \hat{\mathcal{O}}$ 随后用于更新代理的信念以及代理执行的后续规划/推理。这可以被视为一种通过自然语言反馈进行的在线策略学习，并与基于自然语言的反馈代理相关。

我们现在关注代理的动作 $\in \mathcal{A}$ 。代理可以（i）围绕它可以采取的动作形成思想 $\tau \in \mathcal{L}$ ，以及（ii）决定选择哪些工具 $\in \mathcal{A}$ （例如，API、搜索引擎、函数）来获取外部知识——这扩展了它可以完成的任务空间。通过结合一系列的思想和工具/动作，以及通过工具获取的结果，代理可以为解决问题创建一个计划 $p$ 。此外，代理可以（iii）形成关于用户（以及潜在的世界其他方面）的信念；因此，另一个关键动作是提取导致新的代理信念状态。信念表示为结构化的语言对象，存在于XML或JSON空间中， $\in S\mathcal{L}$ [42,43]，其中结构化语言可以被视为语言空间 $\mathcal{L}$ 的子集。信念状态可以编码代理对用户目标、需求、思想的估计。

情感、动机和障碍（取决于代理的上下文和使用场景），同时也与心智理论相关联。根据通过多步推理/规划（上述（i）和（ii））形成的计划以及形成的信念（上述（iii）），代理可以（iv）交谈，即向用户提供自然语言表达 $\in \mathcal{L}$ 。将这些结合起来，动作空间 $\mathcal{A}$ ，在经典的仅动作范式中仅包含工具，被扩展为 $\hat{\mathcal{A}}$ 。我们将其称为增强的动作空间。空间 $\hat{\mathcal{A}}$ 包括工具 $\in \mathcal{A}$ 、思想/推理轨迹 $\tau \in \mathcal{T}$ （如在ReAct [39]范式中考虑的），以及信念 $b$ 和表达 $u$ ，即 $\hat{\mathcal{A}} = \mathcal{A} \cup \mathcal{T} \cup \mathcal{B} \cup \mathcal{U}$ 。虽然思想和信念不会影响世界并导致没有观察反馈，但工具和表达与世界互动，即外部知识库和用户。

基于语言的代理根据策略 $\pi$ 选择其增强动作，该策略通过大型语言模型（LLM）实现，参数为 $\Theta$ ，通过其提示/宪法遵循一组指令 $\mathcal{I} \in \mathcal{L}$ 。指令编码领域知识、与用户互动的期望行为以及代理应遵循的宪法[3]。实现策略的LLM使用指令、用户的最新自然语言反馈/表达 $o$ ，以及交互历史 $\mathcal{H} \in \mathcal{L}$ 在其上下文窗口 $c$ 中。除了上下文窗口，代理具有记忆功能，允许它记录所有代理-用户互动以及其他用户信息跨会话在其记忆mem中。这是代理存储最近的信念状态 $\in \mathcal{B}$ 和当前计划 $\rho$ 以解决任务的地方。代理可以在任何时候从记忆 $x_{\text{mem}}$ 中检索相关信息，增强其上下文窗口中的信息。

我们在部分可观察马尔可夫决策过程（POMDP）[20, 29]中公式化这一点，如下。在时间步 $t + 1$ ，基于语言的代理根据 $\Theta$ -参数化的LLM基策略选择动作 $\hat{a} \in \hat{\mathcal{A}}$ ： $\hat{a}_{t+1} \sim \pi(\hat{a}|c_t, x_{\text{mem}}; \Theta)$ ，其中上下文 $c_t = \text{Concat}(\hat{o}_t, \mathcal{H}_t, \mathcal{I})$ 是用户的最新表达、交互历史和整体指令的串联； $x_{\text{mem}}$ 代表代理可能需要从记忆中检索的任何信息，包括之前的信念状态 $b$ 。对于每次用户-代理互动，当代理需要生成一个表达与用户交谈时，可能会有一系列增强动作代理在生成其响应之前采取。上下文捕捉代理在生成动作之前获得的思想/工具选择/结果系列： $c_t = (\tau_1, a_1, o_1, b_1, \ldots, \tau_{t-1}, a_{t-1}, o_{t-1}, b_{t-1})$ 。

3.2 提出的双系统 Talker-Reasoner 代理模型

到目前为止，我们已经正式确定了一个代理，它可以通过多步推理和计划、对话和提取用户信念的能力与用户交互来解决任务。然而，这对于单个LLM来说可能很难做到，因为谈话与多步骤推理/计划和形成信念有不同的要求。接下来，我们提出了双系统架构，分别受到快速思维系统 1 和慢速思维系统 2 的启发，包括：

The Talker：通过语言与用户交互的快速代理，感知世界，从用户那里获取观察和反馈，与记忆交互以启动其响应，并生成会话响应。
Reasoner：负责解决复杂问题的缓慢而深思熟虑的代理，涉及协同推理与采取行动增强其来自现实世界的知识，例如调用工具或从外部数据库获取信息[17]。推理者还负责制定和更新驱动其决策的信念以及谈话者随后的言论。 Reasoner 通常是有目标条件的，准备解决特定问题或目标 [9]，并且是分层的 [36]，将问题划分为子问题。

如图 3 所示，Talker（系统 1）和 Reasoner（系统 2）交互的主要方式是通过内存。 Reasoner 负责生成下一个信念状态并导出多步推理和规划，并将其存储在内存中。每当说话者需要信念时，它就会从记忆中检索最新的信念。因此，说话者可能会以延迟的世界观来运作，因为推理者可能没有时间产生新的信念并将其存储在记忆中。然而，由于 Talker 旨在直观且快速，并考虑用户刚刚所说的内容和对话历史记录，因此对话响应仍然会是连贯的。事实上，由说话者驱动的对话是由推理者处理的，因此说话者的快速印象和反应成为推理者明确的信念和选择（计划）的来源。 Talker 也可以在生成响应之前等待 Reasoner；这相当于系统 2 接管并推翻了系统 1 的冲动。
在这里插入图片描述

3.2.1 说话者（快速思考）代理

说话者与世界互动，包括与用户互动，需要理解语言和互动/对话历史，并能够生成自然的人类级别的语言来进行必要的交谈动作。这些标准通过使用强大的、在上下文中学习的[5]语言模型来实现说话者代理。类似于系统1，说话者力求连贯性，并作为关联机器运作。为了确保说话者的连贯性和良好的用户体验，给语言模型提供指令 $\mathcal{I} \in \mathcal{L}$ 来遵循，这些指令编码了说话者的“宪法”[3]。

说话者还与记忆 $\text{mem}$ 互动，以用相关信息 $x_{\text{mem}}$ 来引导其响应，包括由推理器形成并存储在 $\text{mem}$ 中的最新信念。在每次与用户的互动中，说话者执行交谈动作，并生成对话响应，即表达 $u$ ，该响应基于上下文 $c$ 和指令 $\mathcal{I}$ ：

$u_{(t+1)} \sim \text{Talker}(u | c_{t+1}, \mathcal{I}(\cdot | b_{\text{mem}}); \Phi) \tag{1}$
其中 $\Phi$ 是说话者的参数。上下文 $c_{t+1}$ 可以包括最新的用户表达 $\hat{o}$ ，它既作为观察又作为自然语言反馈， $b_{\text{mem}}$ 是由推理器产生的最新信念并存储在记忆中， $\mathcal{H}_{\text{mem}}$ 是交互历史：

$c_{t+1} = \text{Concat}(\hat{o}_{t+1}, b_{\text{mem}}, \mathcal{H}_{\text{mem}}) \tag{2}$

说话者遵循的指令 $\mathcal{I}$ 可以依赖于信念状态。总体而言，说话者应该快速且具有对话性，尽量减少延迟。每当用户与系统交谈时，说话者都会“在线”，类似于系统1。为了确保快速互动性，它可能会使用不是推理器最新的信念 $b_{t+1}$ ，这意味着两个系统有时可能会解耦。

3.2.2 Reasoner（思考慢）智能体

Reasoner 代理的作用类似于系统 2：它能够解决复杂的问题、有意识地形成信念和做出选择。 Reasoner 执行多步骤推理和规划，需要对各种上下文学习的 [5] 或思想链 (CoT) 提示的语言模型 [37] 进行一系列调用，并调用不同的工具 [39] 或数据库 [17] ] 用于外部知识获取。这要求它协同推理（产生想法）和行动（调用工具来获取观察结果），如检索增强或工具增强的 ReAct 类型代理 [39]。代理可以制定计划（例如，一系列要调用的工具）和推理跟踪来解决复杂的任务。它通常以分层方式将问题分解为子问题，并将每个子问题分配给不同的模块、工具或LLM。

它还形成关于世界状态的信念，它可以结合多步推理的多个中间结果，并从过去的交互历史中提取有关用户模型的所有有趣事实，以结构化语言对象存储在内存中。刻意的信念形成的这一方面是将 Reasoner 与典型的 ReAct 风格代理区分开来的，因为它包括对世界/人类进行建模的刻意尝试，如提取动作中所述。

具体来说，推理器可以采取的动作包括：推理、行动和提取，每种动作分别产生思想 $\tau \in \mathcal{L}$ 、作为工具使用结果的中间观察 $o$ 以及以结构化语言对象形式的信念 $\in \mathcal{SL}$ 。因此，增强的动作空间包括思想、工具动作和信念提取： $\hat{\mathcal{A}} = \mathcal{A} \cup \mathcal{T} \cup \mathcal{B}$ 。由于增强的动作空间存在于无限的语言空间中，学习策略变得困难，需要强大的语言先验。因此，我们通过上下文学习的语言模型实现推理器的策略，该模型由参数 $Z$ 参数化。推理器选择一个增强的动作：

$\hat{a} \sim \text{Reasoner}(b, \hat{a} | c_{\text{Reasoner}}; Z). \tag{3}$

上下文 $c_{\text{Reasoner}}$ 包含一系列 $n$ 个思想、动作（例如，调用工具如 SEARCH）、这些动作后的观察以及信念提取，以及由说话者提供的最新观察/语言反馈 $\hat{o}_t$ ：

$c_{\text{Reasoner}} = \text{Concat}(\tau_1, a_1, o_1, b_1, \ldots, \tau_n, a_n, o_n, b_n; \hat{o}_t). \tag{4}$

当推理器完成其一系列 $n$ 个推理/规划步骤时，其中 $n$ 可以根据问题而变化，它构建信念状态 $b_{t+1}$ 作为中间信念 $b_1, \ldots, b_n$ 的组合，并将其存储在内存中。因此，在用户与说话者交互的两步之间，推理器有 $n$ 步较慢的“思考”。

4 评估案例研究：睡眠教练代理

我们在睡眠教练用例中实例化并验证了 Talker-Reasoner 双代理架构：AI 语言代理与用户交互，为睡眠行为和挑战提供帮助。

4.1 人工智能睡眠辅导的现实场景

我们使用这个现实场景来评估我们的双代理架构。我们选择人工智能辅导，因为它需要有一个被辅导的用户模型，利用睡眠辅导专业知识来确保得到科学支持的建议，为用户提供多步骤的辅导计划，并且像人类教练一样具有对话性和同理心是。这个实例化使我们能够定性地测试 Reasoner 的规划和推理能力以及 Talker 的交互性。我们选择睡眠还因为它是人类健康至关重要的组成部分，对营养、活动和心理健康都有影响[13]。 AI教练需要通过对话不断了解用户的需求，陪伴用户从理解用户需求，到帮助用户设定目标，再到提供用户可以遵循的多步骤计划，并与用户连接资源。

4.2 实例化用于睡眠辅导的说话者-推理者双代理模型

睡眠指导说话者代理（Sleep Coaching Talker Agent）
我们通过一组指令 $\mathcal{I}$ 编码从临床专家那里获得的关于睡眠的专业知识，这些指令描述了代理的“宪法”（例如，具有同理心、对话性、提供准确建议）以及睡眠指导的期望阶段（理解、目标设定和指导计划），每个阶段都有单独的指令： $\mathcal{I}_{\text{understanding}}$ 、 $\mathcal{I}_{\text{goal-setting}}$ 、 $\mathcal{I}_{\text{coaching-plan}}$ ，以引导说话者通过临床指导过程。我们通过一个Gemini 1.5 Flash [31] 模型实现了说话者，该模型基于指令、上下文（包括最新的用户表达、交互历史以及存储在内存中的最新信念状态）进行条件化，如公式 [1]、[2] 所示。该模型强大的语言先验和指令集使其能够进行复杂的模式理解，并提供类似于系统1的深思熟虑的对话响应，如第4.3.1节所示。

睡眠指导推理者代理（Sleep Coaching Reasoner Agent）
AI指导推理者明确地建模关于用户的信念。为此，我们根据临床专家的输入，编码了一个JSON/XML信念模式，包括睡眠关注、目标、习惯、障碍和睡眠环境等字段。推理者在进行多步推理/规划时推断和更新模式字段，从而创建/更新其信念状态。我们实现了一个分层 [36] 推理者——在每一轮中，它推断用户处于三个离散指导阶段中的哪一个，并使用相应的三个迷你推理者，每个迷你推理者由不同的CoT提示的Gemini 1.5 Flash模型 [31] 实例化，并带有相应的模式进行提取。

说话者-推理者协调（Talker-Reasoner Coordination）
说话者是否等待推理者完成取决于信念——在规划指导阶段，说话者等待，否则不等待。

4.3 定性结果

4.3.1 对话示例

下面是一个示例对话，说明了 Reasoner 和 Talker 之间的交互。

用户：嘿，我需要你帮助规划：如何创造一个轻松的就寝环境。
(BELIEF in mem) {updated-context:starting context,updated-title:Sleeping Coaching, coachingphase:UNDERSTANDING}
发言者：太好了，让我们开始为您创造一个轻松的就寝环境 😃 您的卧室里有什么东西可能会影响您的睡眠？打扰你的睡眠吗？
用户：我认为噪音和光线可能会分散注意力。您能帮我制定一个计划来消除这些干扰吗？
(BELIEF in mem) 不变
说话者：绝对！以下是消除卧室干扰的计划：噪音：

识别噪音源：列出卧室内的所有噪音源。
阻挡外界噪音：使用遮光窗帘阻挡光线并减少噪音；考虑使用降噪窗帘或隔音板。尝试使用耳塞或白噪声机。
Light：……记住，一致性是关键。每天晚上坚持这个计划，创造一个宁静、黑暗的睡眠环境。还有什么我可以帮助您的吗？
用户：当然，这很有用。不过，我更愿意一步一步来。还可以查看有关如何在卧室营造宁静轻松氛围的资源。
（记忆中的信念）：{用户上下文：UserCollectedContextData（主要睡眠问题：卧室中的噪音和光线干扰），辅导阶段：CoachingPhase（值=计划）}
推理者的计划：当然！让我们更深入地了解您计划的第一步：
步骤：选择平静的调色板。描述：为卧室选择颜色时，选择舒缓的中性色调，如柔和的蓝色、绿色或灰色。这些色调已被科学证明可以促进放松和安宁。

YouTube 视频：（链接）标题：打造轻松无压力卧室的墙壁颜色创意。频道：roomdsignTV。推理：来自 roomdsignTV 的这段视频提供了平静卧室调色板的视觉示例。它展示了现实生活中的转变，展示了舒缓色彩对营造宁静氛围的影响。
YouTube 播放列表：（链接）标题：Berger 绘制颜色组合。频道：Hresun Interiors。推理：Hresun Interiors 的这个播放列表展示了一系列卧室色彩组合创意。它具有从传统到现代的多种风格，可帮助您找到适合您卧室的完美配色方案。
TALKER：复制 Reasoner 的回复

在这里插入图片描述

4.3.2 根据反馈调整计划

以下示例说明 Reasoner 代理如何根据 Talker 代理从用户收集的反馈来调整其计划。
在这里插入图片描述

4.4 Discussion

正如第 3 节中提到的，为了最大限度地减少延迟，Talker 使用内存中最新的可用信念状态 b，而不是等待 Reasoner 完成其思考过程。第 4.3 节中的定性结果说明了该方法的两种不同的成功和失败模式：

“直觉说话者”：异步方法对于说话者足够的任务来说是有效的，即使它在较旧的信念状态下运行。这些通常是系统 1 任务。例如，当辅导阶段为“理解”时，Talker可以成功地进行对话，而不需要Reasoner完成信念更新。

“快速判断 Talker”：然而，在 Talker 继续复杂的问题解决场景之前，Reasoner 必须更新其信念状态，例如，当用户要求明确的多步骤计划或需要工具调用的特定资源时。在这些情况下，说话者无需等待推理者完成，就可以做出快速判断。当推理机提取的信念尚未捕获正确的指导阶段并且未获取资源时，我们可以看到此类“快速判断说话者”行为的一些示例。为了解决这个问题，当 Talker 读取到辅导阶段正在“计划”时，它会被指示等待 Reasoner 完成。这对应于系统 2 接管并推翻系统 1 的冲动。

最后，尽管人们对执行更复杂的系统 2 推理的人工智能代理越来越感兴趣 [14]，但我们相信我们的工作是第一个将我们的 Talker-Reasoner 架构提供的系统 1 和系统 2 推理的二元性形式化的工作。

5 Conclusions

本文介绍了双系统代理框架作为基础模型驱动的智能代理的可能的受生物学启发的架构。受该框架背后的行为科学原理的启发，未来研究的方向包括决定何时不探测推理机，以及如何在大多数时间、当说话者可以处理大多数情况时以较低的能力使用它。理想情况下，给定用户查询，Talker 应该自动确定它是否需要系统 2 推理，从而需要 Reasoner，或者是否可以安全地继续其系统 1 思维。另一个方向是将 Talker-Reasoner 架构扩展到多个 Reasoner，每个 Reasoner 将信念状态写入内存的不同部分，以进行不同类型的推理。