融合直觉和理性：ACL2024《Planning Like Human: A Dual-process Framework for Dialogue Planning》解读

最新推荐文章于 2025-05-19 12:52:59 发布

青云遮夜雨

最新推荐文章于 2025-05-19 12:52:59 发布

阅读量1.4k

点赞数 16

分类专栏：论文笔记文章标签：自然语言处理人工智能深度学习语言模型

本文链接：https://blog.csdn.net/qq_51957239/article/details/142215458

版权

论文笔记专栏收录该内容

26 篇文章

订阅专栏

摘要

在主动对话中，挑战不仅仅在于生成回复，还在于将对话引导至预定目标。然而，由于大型语言模型（LLMs）的反应性本质，这一任务对它们来说通常较为困难。为增强LLMs的对话规划，传统方法从复杂的提示工程到引入策略网络，各种方法要么面临效率问题，要么表现不佳。受心理学中的双重加工理论启发，该理论指出两种截然不同的思维模式——直觉（快速）和分析（缓慢），我们提出了“双重加工对话规划”（DualProcess Dialogue Planning, DPDP）框架。DPDP通过两种互补的规划系统体现了这一理论：在熟悉的上下文中采用直觉的策略模型，而在复杂和新颖场景中则使用深思熟虑的蒙特卡洛树搜索（MCTS）机制。该双重策略进一步结合了一个新颖的两阶段训练过程：首先通过离线强化学习构建稳健的初始策略模型，然后通过MCTS增强的实时学习来确保在效率与策略深度之间动态平衡。我们在多种对话任务中的实证评估表明，DPDP在实现高质量对话和操作效率方面表现优越，超越了现有方法。

Ⅰ Introduction

图 1：使用双过程理论进行人类认知过程中的对话规划。这是 ESConv 的一个案例（Liu et al., 2021）。 “问题”和“感受的反映”是 ESConv 中预定义的对话动作。

大型语言模型（LLMs）如（Ouyang等，2022；Touvron等，2023a，b）描述的模型，彻底改变了自然语言处理领域，展示了在广泛的对话场景中理解上下文和生成连贯回应的前所未有的能力（Bang等，2023；Zhang等，2023b；Zhao等，2023）。尽管取得了这些进展，LLMs主要以反应模式运行，通常难以主动引导对话朝向特定目标，这在实现真正动态互动时是一个重要的局限性。这一差距凸显了对话规划机制研究的迫切需求，旨在战略性地引导对话，尽管这一话题已被探讨，但仍然是一个持续的挑战。

对话规划对于塑造对话的轨迹以达到预期的结果至关重要，目前已出现了多种方法。有些研究旨在设计更有效的提示程序，如蒙特卡洛树搜索（MCTS），尽管取得了显著的性能进展，但这些方法通常因其复杂和迭代的性质而面临效率问题。与之相比，以PPDPP为代表的研究采用强化学习（RL）训练可插拔的小型模型作为策略网络，绕过了优化LLMs的高成本问题和迭代提示的低效率问题。然而，在实际应用中，训练后的策略网络仅根据当前的对话历史预测对话动作，忽略了用户在后续回合中的潜在反应，导致性能受限。

受人类认知双重加工理论的启发，该理论由Kahneman（2003）提出，认为存在两种截然不同的思维模式——系统1：快速、直觉的思维模式，以及系统2：缓慢、分析的思维模式。我们建议将这一框架应用于对话规划。人类对话者会根据情境的需要，无缝集成这两种系统，或快速作出本能反应，或进行深思熟虑的战略思考。这一理论为我们重新构想对话规划提供了有力的视角，暗示直觉与分析规划的结合可以大幅提升LLMs进行主动对话的能力。

为此，我们提出了双重加工对话规划（DPDP）框架，这是一种将两种互补规划系统相结合的新方法：神经策略语言模型（系统1）用于快速、直觉地应对熟悉的情境，而基于MCTS的规划器（系统2）用于在复杂或新颖场景中进行分析、理性但较慢的规划。该框架允许根据策略语言模型的不确定性在系统之间动态切换，优化效率与策略深度的平衡。DPDP成功的关键在于提升策略模型的能力，为此我们提出了一种创新的两阶段训练方法。首先，我们使用离线强化学习来优化策略模型的基础，减少训练数据集中次优策略和噪声的影响。接着，我们利用MCTS模拟来指导策略模型生成更优的策略，从而加速其收敛并提升整体性能。我们在多种主动对话任务中的全面评估结果明确表明，DPDP在对话规划的效率和效果上优于现有方法，设立了新的基准。

总而言之，我们的贡献有三点：

我们提出了一种模仿人类认知过程的双系统对话规划方法，平衡了效率与策略深度。
我们开发了一种创新的策略模型两阶段训练方法，结合离线强化学习和MCTS显著提升了模型性能。
在两个数据集上的实验结果验证了我们提出的框架在有效性和效率上显著超越了一系列基线方法和基于MCTS的方法。

Ⅱ Methodology

1. 准备工作

问题形式化

根据现有工作，我们将对话过程表述为马尔可夫决策过程（MDP）。在每一回合 $t$ 中，根据对当前状态 $s_t$ 的观察，即对话历史 $\{u_1^{\text{sys}}, u_1^{\text{usr}}, ..., u_t^{\text{sys}}, u_t^{\text{usr}}\}$ ，对话系统选择一个动作 $a_t \in A$ ，其中 $u^{\text{sys}}$ 和 $u^{\text{usr}}$ 分别表示系统和用户的发言， $A$ 是由领域专家预定义的一组候选策略。然后，在动作 $a_t$ 的引导下，系统生成发言 $u_{t+1}^{\text{sys}}$ 。作为回应，用户用 $u_{t+1}^{\text{usr}}$ 回复系统。该过程重复进行，直到对话目标达成或达到最大回合数 $T$ 。其目标是学习一个策略 $\pi_\theta$ ，以最大化在观测到的对话过程中期望的累积奖励，公式如下：

$\pi^* = \arg \max_{\pi_\theta} \mathbb{E} \left[ \sum_{t=0}^{T} r(s_t, a_t) \right] \tag{1}$

其中 $r(\cdot)$ 是奖励函数，简写为 $r_t$ 。

马尔可夫决策过程（Markov Decision Process, MDP）是用于建模决策问题的数学框架，常用于强化学习和决策理论中。在MDP中，智能体通过与环境的交互来做出决策，以最大化长期回报。MDP由四个基本要素构成：首先是状态（State, $S$ ），它描述了系统在任一时刻的情况，所有可能的状态构成了状态集 $S$ 。其次是动作（Action, $A$ ），即智能体在每个状态下可以执行的行为，所有可能的动作构成动作集 $A$ 。第三个要素是状态转移概率（State Transition Probability），它表示在执行某个动作后，系统从一个状态转移到另一个状态的概率，满足马尔可夫性，即未来的状态只依赖当前状态和动作，而与过去的状态无关。最后是奖励（Reward, $R$ ），智能体在从一个状态转移到另一个状态时会获得一定的回报，奖励函数用来量化动作的好坏。MDP的目标是通过制定一个策略（Policy, $\pi$ ），即智能体在每个状态下采取行动的规则，使得智能体能够最大化累积的期望回报。

LLM驱动的角色模拟

我们使用两个LLM分别扮演用户和助手，来模拟动态的用户-助手互动。角色描述以及关于其对应对话目标的指令被传递给每个LLM。此外，我们根据PPDPP（Deng等，2023b）的方法，提示一个LLM充当评审者，评估对话状态。用于角色模拟和状态评估过程的提示与PPDPP中使用的提示保持一致。详细的提示信息请参见附录G。通过这种方法，我们可以将研究重点集中在有效规划每个对话回合的策略上。

2. Dual-process Planning Framework

图 2：DPDP 结合了两个规划器：(a) 用于快速响应的策略 LM 和用于复杂场景的 MCTS 规划器，当策略 LM 在推理过程中不确定时进行切换。 (b) 我们提出了一种用于策略 LM 的两阶段训练方法，包括使用离线 RL 对静态数据进行预训练，并使用 MCTS 模拟进行进一步微调。

我们在图2(a)中展示了Dual-process Planning Framework。该框架的设计灵感源自人类认知研究，认为人类的认知和行为由两套认知系统驱动：直觉系统和分析系统。在我们的研究中，一个较小的模型被训练为直觉策略语言模型（我们使用RoBERTa-large实现），该模型能够根据对话历史直接预测下一个对话动作。蒙特卡洛树搜索（MCTS）作为分析过程，通过迭代模拟后续的对话回合，从多次模拟中选择近似最优策略。如果策略语言模型在当前状态下的置信度不足，我们会切换至MCTS进行动作规划。为此，我们提出了一种无参数控制门机制，用于决定这种切换。

2.1 Policy LM Planner(直觉策略语言规划器)

我们提出使用一个可调的预训练语言模型，例如RoBERTa（Liu等，2019），作为对话策略规划器来控制对话过程。与之前的方法（Deng等，2023b）不同，我们不仅涉及一个策略网络，还引入了一个Q网络。我们的设计依据基于两点：

CIMA训练集仅包含对话片段，而非完整的对话历史。在我们提出的基于离线强化学习的预训练方法中，仅学习策略网络是不够的。需要一个动作价值函数，即Q网络，来帮助训练策略网络。
我们将LLM用作奖励函数，即我们将评审LLM视为环境的一部分。建模环境是减少交互同时保持性能的典型方法（Luo等，2022）。

通过连接两个不同的MLP层，Policy LM Planner包括一个用于动作预测的策略网络 $\pi_\theta(a|s)$ 和一个用于状态评估的Q网络 $Q_\beta(a|s)$ 。在每一回合中，后续的策略 $a_t$ 通过将对话状态 $s_t$ 输入到策略网络中进行预测。

解读：Policy LM Planner 是一个基于预训练语言模型（如 RoBERTa）的可调模型，用于对话策略规划。它包含两个主要组件：

策略网络 $\pi_\theta(a|s)$ ：用于在给定对话状态 $s$ 下预测下一步的对话动作 $a$ 。
Q 网络 $Q_\beta(a|s)$ ：用于评估在状态 $s$ 下采取动作 $a$ 的价值，即预期的累积奖励。
这两个网络共享底层的编码器部分，但通过不同的全连接层（MLP）实现各自的功能。

(1) 编码器部分

输入：当前对话状态 $s_t$ ，包括历史的用户和系统发言。
处理：使用预训练的语言模型（如 RoBERTa-large）对输入进行编码，得到对话状态的表示向量 $h_t$ 。

(2) 策略网络 $\pi_\theta(a|s)$

输入：编码后的对话状态表示 $h_t$ 。
结构：一个全连接层，接在编码器之后，用于将 $h_t$ 映射到动作空间。
输出：对每个可能动作 $\in A$ 的概率分布 $\pi_\theta(a|s)$ 。

(3) Q 网络 $Q_\beta(a|s)$

输入：同样的对话状态表示 $h_t$ 。
结构：另一个全连接层，独立于策略网络的输出层，用于估计每个动作的价值。
输出：每个可能动作的价值估计 $Q_\beta(a|s)$ 。

工作流程：
在每个对话回合 $t$ 中，Policy LM Planner 的工作流程如下：

状态编码：将当前对话状态 $s_t$ 输入编码器，得到表示 $h_t$ 。
动作预测：使用策略网络 $\pi_\theta(a|s_t)$ ，根据 $h_t$ 预测下一步的动作概率分布。选取概率最高的动作 $a_t$ ，或者根据分布进行采样。
价值评估：使用 Q 网络 $Q_\beta(a|s_t)$ ，评估在状态 $s_t$ 下各个动作的价值。

2.2 MCTS Planner(蒙特卡洛树搜索规划器)

参考GDPZero（Yu等，2023），我们利用蒙特卡洛树搜索（MCTS）（Weber, 2010；Liebana等，2015）来模拟后续的策略推演。这个过程通常涉及四个阶段：选择、扩展、评估和反向传播。经过多次模拟后，下一回合的对话策略根据在这些过程中最频繁应用的动作确定。关于MCTS在对话规划中的更多细节，请参见附录D。

与GDPZero不同的是，我们使用Policy LM为MCTS生成先验知识。在每个选择步骤中，GDPZero通过多次提示LLM来计算动作概率。而我们则利用领域特定的训练Policy LM来生成先验概率分布。这种方法不仅允许应用学习到的领域特定知识以改进初始化，还减少了对LLM的调用频率，从而提高了效率并降低了成本。我们在随后的实验中验证了这种操作。

2.3 协调两个规划器

我们的目标是协同利用Policy LM规划器和 MCTS 规划器来建立自适应双流程系统。与人类主动对话中的认知过程类似，个体在遇到熟悉的对话状态时可以快速响应适当的策略。相反，当遇到不熟悉的状态时，就需要通过模拟后续对话回合中的潜在反应来选择最合适的策略。在我们的框架中，我们优先利用Policy LM进行行动选择。如果Policy LM检测到对当前状态的信心不足，我们会转而采用 MCTS 进行行动规划。

为了减少对训练的依赖，我们提出了一种非参数化的控制门机制来控制切换。对于由Policy LM预测的动作分布 $\pi_{\theta}(a_t \mid s_t)$ ，我们通过前两大值之间的概率差异来评估不确定性：
$\delta(\pi_{\theta}(a_t \mid s_t)) = \text{top}(1) - \text{top}(2)$
其中 $\text{top}(i)$ 表示 $\pi_{\theta}(a_t \mid s_t)$ 中第 $i$ 大的值。如果这个差异超过阈值 $\eta$ ，这表明Policy LM对当前的决策有高度的信心，提示使用Policy LM进行动作选择。相反，如果差异较小，这意味着Policy LM不确定，从而提示使用MCTS进行动作选择。通过设置适当的 $\eta$ ，我们可以大致控制使用MCTS的比例。关于如何确定 $\eta$ 的详细信息，请参见附录B。当然，其他不确定性度量（例如熵）也可以在我们的框架中应用。

3. Policy LM的两阶段训练

3.1 离线强化学习预训练

我们对策略语言模型（Policy LM）的两阶段训练方案，如图2(b)所示，首先从基于离线强化学习（Offline RL）的预训练开始，旨在确保有效的初始化，减少后续在线学习中的交互时间。与直接监督学习不同，后者可能通过次优或噪声数据引入偏差，离线强化学习（Kumar et al., 2020）通过使用软奖励从数据集中识别有价值的策略，避免了硬标签的陷阱。具体而言，我们的方法首先使用批判性大语言模型（Critic LLM）为训练集中的每次对话回合分配评分，这些评分作为标注对话策略的奖励。最后，我们重构了一个包含完整状态、动作和奖励的马尔可夫决策过程（MDP）语料库。利用该语料库，我们预训练了策略语言模型，该模型包括策略网络 $\pi_{\theta}(a|s)$ 和 $Q$ 网络 $Q_{\beta}(s, a)$ 。

具体而言，由于CIMA（Stasaski et al., 2020）数据集中缺乏完整的对话轨迹，ESConv（Liu et al., 2021）和CIMA数据集的预训练细节有所不同。我们在此概述ESConv的优化过程，而CIMA的详细信息在附录A中提供。对于策略网络的优化，我们通过以下步骤进行：

我们使用与PPDPP相同的策略，对当前状态生成10次评估，将每次评估映射到预定义的分数，最终计算平均值作为奖励。

$\mathcal{L}_{pre,\theta} = - \sum_{t=1}^{T} \hat{Q}(s_t, a_t) \log \pi_\theta(a_t|s_t), \tag{2}$

其中，
$\hat{Q}(s_t, a_t) = \sum_{t=1}^{T} \gamma^t R(a_t|s_t)$
表示累积奖励， $\gamma$ 是折扣因子， $R(a_t|s_t)$ 是在状态 $s_t$ 下选择动作 $a_t$ 后接收到的奖励。

对于ESCConv，我们将“感觉变差”，“感觉不变”，“感觉变好”，“问题解决”分别映射为-1.0、-0.5、0.1、1.0。对于Q网络 $Q_\beta(s, a)$ ，我们通过优化使其逼近 $\hat{Q}(s, a)$ ：

$\mathcal{L}_{pre,\beta} = \sum_{t=1}^{T} \text{MSE}(Q_\beta(s_t, a_t), \hat{Q}(s_t, a_t)). \tag{3}$

最终，预训练阶段的整体优化损失为：

$\mathcal{L}_{pre} = \mathcal{L}_{pre,\theta} + \lambda_1 \cdot \mathcal{L}_{pre,\beta}, \tag{4}$

其中， $\lambda_1$ 是控制损失权重的超参数。通过这样做，我们期望相比于直接监督学习，获得更好的初始化。

3.3 MCTS-guided Self-play Training

由于静态训练集无法覆盖整个状态-动作空间，因此需要额外的与环境交互。在交互式在线学习中，我们启动两个LLM来模拟用户与助手之间的自我对话。给定当前状态 $s_t$ ，我们不直接使用策略代理来预测下一个动作，而是使用MCTS进行动作预测。预测的动作随后映射到预定义的自然语言指令 $M_a(a_t)$ 。接着，对话历史 $s_t$ 与 $M_a(a_t)$ 将触发LLM生成适当的系统响应，随后提示LLM生成相应的用户回复。随后，对话过程过渡到新的状态 $s_{t+1}$ 。我们采用LLM作为评论者来计算动作奖励 $r_t$ 。收集的状态转换记录 ${s_t, a_t, s_{t+1}, r_t\}$ 用于训练策略模型。

我们使用Actor-Critic算法优化策略语言模型（LM），而不是REINFORCE算法（Sutton等，1999）。Q网络的优化损失如下：

$\mathcal{L}_{sp,\beta} = \sum_{t=1}^{T} [Q^*(s_t, a_t) - Q_\beta(s_t, a_t)]^2,$

$Q^*(s_t, a_t) = R(a_t|s_t) + \gamma \cdot \max_{a'} Q_\beta(s_{t+1}, a'),$

策略网络的损失为：

$\mathcal{L}_{sp,\theta} = \sum_{t=1}^{T} \left[ \left( Q_\beta(s_t, a_t) - \hat{Q}(s_t, a_t) \right) \cdot \log \pi_\theta(a_t|s_t) \right].$

其中， $Q_\beta$ 是用于计算状态-动作值的Q网络。 $\hat{Q}(s_t, a_t)$ 是之前定义的累积奖励。

最后，自我对话训练阶段的整体优化损失为：

$\mathcal{L}_{sp} = \mathcal{L}_{sp,\theta} + \lambda_2 \cdot \mathcal{L}_{sp,\beta}, \tag{5}$

其中， $\lambda_2$ 也是一个损失权重。

Ⅲ 实验

1 数据集

我们在三个主动对话数据集上评估了所提出的框架，包括 ESConv (Liu et al., 2021)（情感支持对话）、CIMA (Stasaski et al., 2020)（辅导对话）和 CraigslistBargain (或 CB，价格谈判) (He et al., 2018)。ESConv 数据集被划分为 1040/130/130 个训练/验证/测试样例，且预定义了 8 种动作。CIMA 数据集被划分为 909/113/113 个训练/验证/测试样例，包含 5 种对话动作。ESConv 和 CIMA 都是协作式对话任务，其中参与双方具有相同的目标。相比之下，CB 是非协作对话任务，买方的目标是尽可能降低价格，而卖方的目标是尽可能提高价格。CB 数据集包含 3290 个训练样例、188 个验证样例和 188 个测试样例，涉及 11 种买方议价动作。关于预定义的对话动作，请参见附录 G.4。根据 PPDPP (Deng et al., 2023b) 的设置，我们使用训练集中由人工标注的对话进行预训练。对于自我对话训练阶段，我们仅使用数据集中的案例背景信息进行状态初始化。

2 Baseline

我们的目标是通过主要与 PPDPP 进行比较来证明该框架的有效性。此外，我们按照 PPDPP 与通用微调对话模型 DialoGPT (Zhang et al., 2019) 以及一系列基于提示的方法进行比较，包括 Standard Prompting、Proactive (Deng et al., 2023a)、ProCoT ( Deng 等人，2023a）、询问专家（Zhang 等人，2023a）和 ICL-AIF（Fu 等人，2023）。跟随邓等人。 (2023b)，我们报告基线结果。

3 评价指标

在自动评估中，我们采用了两个关键指标：平均回合数（Average Turn，AT）和成功率（Success Rate，SR）。AT 通过计算完成目标所需的平均回合数来衡量目标完成的效率，而 SR 则通过计算在预定义的最大回合数内达成目标的成功率来衡量目标完成的有效性。对于 CraigslistBargain（CB）数据集，根据 PPDPP 的做法，我们还使用 SL（销售价与标价的比率，Sale-to-List Ratio）来评估买家的交易情况。较高的 SL 表示买家从交易中获得了更多的利益。如果交易失败，我们将 SL 设为 0。

此外，在分析了具体的例子后，我们发现直接使用 ChatGPT 进行 ESConv 的评估存在偏差。因此，我们还进行了人工评估以作对比。三位标注员从四个方面比较生成的响应：建议（Suggestion，Sug.）、问题识别（Identification，Ide.）、安慰（Comforting，Com.）和整体表现（Overall，Ove.）。每个方面的评估标准在附录 E 中给出。每位标注员需要判断 DPDP（策略语言模型）是否优于 PPDPP，答案可以是“胜利”（win）、“失败”（lose）或“平局”（tie）。最后，我们取三位标注员的平均结果。

4 实验细节

与 PPDPP（Deng 等人，2023b）一致，我们利用 RoBERTa-large 实例化策略 LM（Liu 等人，2019）。我们使用 GDPZero 中的代码实现 MCTS（Yu 等人，2023）。我们还使用 gpt-3.5-turbo-0613作为静态 LLM扮演系统和用户以及奖励模型。所有使用的提示和温度均与PPDPP一致。此外，我们坚持自然语言指令与 PPDPP 的对话动作相同的映射 Ma。更多培训详情请参阅附录C。

5 实验结果和分析

5.1 整体表现

表 1：ESConv 和 CIMA 的实验结果。 PT 表示预训练，SPT 表示自我训练。

表 2：CraisglistBargain 上的实验结果。

自动评估结果。表1和表2汇总了三组数据集上不同方法的实验结果。在ESConv和CIMA数据集上，提出的DPDP方法，结合了System 1和System 2，表现出比所有基线方法显著优越的效果。我们进一步分析了不同训练方法和系统的影响。首先，我们展示了仅使用System 1（或策略语言模型，Policy LM）的有效性。与PPDPP相比，System 1同样仅使用策略网络来预测后续动作。System 1仅通过预训练或自我对话训练进行训练，始终优于PPDPP，这证明了基于离线强化学习的预训练和MCTS（蒙特卡洛树搜索）引导的自我对话训练的有效性。此外，在System 1中结合这两种训练方法可带来进一步的改进，验证了两阶段训练方法的合理性。System 2通过多次模拟，表现优于System 1，强调了MCTS的有效性。然而，CIMA的结果表明，单纯依赖MCTS可能无法获得最佳结果。通过适当地结合System 1和System 2，可以在保持更高效率的同时（需要更少的对话轮次来完成任务）取得更好的结果。

对于CraigslistBargain数据集，首先，与之前的最先进方法相比，基于System 1（策略语言模型，Policy LM）的DPDP显著提升了平均对话轮次（AT从5.57降至5.03）、成功率（SR从0.6649提升至0.7447）和交易比率（SL从0.3376提升至0.4108），表明我们的两阶段训练方法不仅提高了交易成功率，还增加了交易的收益。其次，System 2（MCTS）显著提高了成功率，但降低了收益。这表明System 2更倾向于妥协，其原因可能是System 2不需要训练，一旦收益超过预定义的阈值就会终止对话；而优化后的策略语言模型（Policy LM）则侧重于从MCTS中获取高收益对话，因此在保持较高交易成功率的同时，收益也较之前的工作有所提高。这些结果还表明，DPDP在未来对于非协作主动对话任务仍需进一步改进。

人工评估结果：基于之前的研究（Liu et al., 2021；Joshi et al., 2021），我们对ESConv中随机选择的50段对话进行了人工评估。我们之所以专注于ESConv，是因为该数据集在自动评估中表现出明显的偏差，主要源于评估患者状态的主观性。评估结果如图3所示。我们还在附录F中提供了对CIMA的人工评估。

图 3：ESConv 上的人类评估结果。

从结果可以明显看出，在前两个评估标准上，我们的方法与PPDPP存在显著差异：DPDP（System 1）更倾向于提供建议，而PPDPP则更偏向于表达同理心，但两者在理解患者状况方面的表现相当。鉴于在实际的心理咨询中，提供实际建议可能比单纯表达同理心更具帮助性，这种差异解释了为什么DPDP（System 1）在整体表现上明显高于PPDPP。

5.2 两个规划器之间的权衡

表 3：在 ESConv 和 CIMA 上采用不同 MCTS 施用比例的 SR 和 AT 结果。

我们的框架整合了策略语言模型（Policy LM）和MCTS规划器的能力，在运行过程中能够实现两者之间的无缝动态切换。为了评估MCTS的影响，我们研究了在不同MCTS参与程度下成功率（Success Rate, SR）和平均回合数（Average Turns, AT）的变化。结果详见表3。

在ESConv数据集上，分析表明，随着推理过程中MCTS参与度的增加，SR显著上升，AT明显下降。这表明，在更复杂的对话场景中，整合MCTS具有明显的优势，尤其是在战略规划至关重要的情况下。相反，CIMA数据集的结果则呈现出不同的趋势。在该数据集中，我们观察到当MCTS参与度达到50%时，性能指标有所提升，但超过这一阈值后，收益开始减少，最终导致性能下降。这一模式表明，对于需要特定反应的任务（例如提供提示或纠正翻译），过度依赖MCTS进行长期规划不仅是多余的，甚至可能会带来负面影响。我们将这种现象描述为“过度思考导致在较简单任务中出现意想不到的错误”，这一点与（Ma et al., 2023）的发现相呼应，突显了在需要即时且直接响应的任务中过度依赖复杂模拟的潜在风险。

通过合理平衡MCTS的参与度，框架的最佳性能得以体现，展示了其能够结合规划优势，针对任务需求实现高效与有效的适应性，验证了设计的合理性和适应性。

5.3 成本与效率分析

图 4：曲线描绘了 ESConv 和 CIMA 上 LLM 使用频率和成功率随使用 MCTS 比例的变化。

MCTS 通常能够提升性能，但它也带来了增加调用LLM（如 ChatGPT）的频率的问题。使用策略语言模型（Policy LM）来选择实际执行的动作时，仅需要3次LLM调用（1次生成系统回复，1次生成用户回复，1次用于评价）；而在MCTS的情况下，由于每个动作的决定可能需要多达10次模拟，因此可能需要最多3*10次调用。考虑到推理阶段大部分时间用于等待LLM的响应，我们根据LLM调用频率来评估效率和成本。我们分析了在不同MCTS参与比例下LLM调用频率的变化趋势，如图4所示。结果表明，随着MCTS使用的增加，LLM调用频率逐渐升高，导致应用成本增加。然而，在ESConv的x=100%和CIMA的x=50.0%处也出现了异常。这是因为，虽然MCTS的使用增加，但系统能力的增强导致了对话平均回合数的减少。因此，尽管MCTS的使用次数增加，但LLM的调用次数可能会减少。通过选择合适的MCTS参与比例，我们可以在性能效果与LLM调用频率之间找到一个平衡点。

5.4 Policy LM对MCTS的影响

表 4：使用在 ESConv 和 CIMA 上使用不同先验分布初始化的 MCTS 的 SR 结果。Unif.表示均匀分布，而Chat.意味着像 GDPZero 一样使用 ChatGPT 进行初始化。

我们利用策略语言模型（Policy LM）为MCTS模拟提供先验概率。因此，我们进一步探讨了策略语言模型对MCTS规划的影响。具体而言，我们分别采用通过预训练（PT）、自我对话训练（SPT）、以及预训练和自我对话结合（PT & SPT）训练的策略语言模型，为MCTS提供先验概率。整个评估完全依赖MCTS规划器。此外，我们还展示了通过直接使用均匀分布初始化先验概率，以及通过像GDPZero（Yu et al., 2023）一样提示LLM计算先验概率的结果，以作比较。

结果如表4所示。结果表明，策略语言模型的性能确实影响MCTS，尤其是在策略语言模型性能显著提升的情况下。在ESConv上，尽管提升幅度较小，但当策略语言模型表现最佳时，MCTS也展现出最佳表现。在CIMA上，使用均匀分布初始化先验概率和GDPZero方法时，成功率（SR）的急剧下降进一步强调了有效先验概率的重要性，以及使用策略语言模型提供先验知识的关键作用。同时，从另一个角度来看，这也说明了我们自我对话训练方法是一个迭代上升的过程。随着训练的推进，策略语言模型的能力提升，提供了更好的先验知识，增强了MCTS的规划能力，反过来又进一步指导策略语言模型的改进。在使用均匀分布和GDPZero时，ESConv和CIMA上的性能变化显著不同。在ESConv上，治疗师通常在同一对话状态下有多种有效的策略选择，例如，面对工作危机的同一个人，提供建议或表达同理心都是可接受的策略。相反，在CIMA上，合适的策略通常根据学生的翻译状态受到限制（例如，对于学生的问题提供提示，对于学生的答案进行确认）。因此，通过MCTS找到唯一有效的动作更加具有挑战性，因而依赖先验知识在CIMA上变得更加重要。

Ⅳ 结论与未来工作

在本研究中，我们引入了一种对话规划框架，该框架利用了人类认知的双重过程理论，通过在快速、直觉式反应与详细、分析式规划之间战略性地切换，以模拟类似于人类的对话动态。为了增强这一框架的能力，我们实施了两阶段训练策略，将离线强化学习用于基础训练，并通过先进的MCTS引导自我对话进行精细化训练。实验证据表明，我们的双重过程框架在对话规划中相较于领先的方法展现了显著的性能提升。未来，我们的研究将致力于优化规划模式之间的切换机制，并进一步优化MCTS的使用，减少计算开销，从而推动对话规划朝着更加细腻、类人化的互动方向发展。

Ⅴ Limitations

评估质量：DPDP通过提示LLM（如ChatGPT）执行对话模拟和价值评估。尽管LLM已被应用于数据质量或数据价值评估的各种任务中（Stiennon等, 2020；Bai等, 2022；Gilardi等, 2023；He等, 2023），并在这些任务中展现了良好的评估性能和高效的评估成本，我们在实验中却发现了显著的评估偏差。例如，错误判断患者的状态导致过早终止治疗。在DPDP的对话中，平均对话轮次不超过3，这显然是不现实的：在两轮对话中解决患者的问题几乎是不可能的。同样地，PPDPP也面临类似的问题。评估偏差不仅影响了最终的指标计算，还影响了训练过程中的奖励获取。为了缓解这一问题，我们进行了人工评估。然而，手动评估的高成本限制了其大规模应用，因此无法在训练阶段纠正评估偏差。

优化成本：我们的方法与之前基于提示的方式不同，因为它需要训练，尤其是在自我对话训练的第二阶段，这涉及与LLM的持续交互。问题在于，由于每轮对话需要多次MCTS模拟，因此成本进一步增加。尽管在ESConv和CIMA上，我们分别将训练限制为5个和3个周期，并且通过MCTS指导，减少了相比PPDPP的10个周期的训练次数，ChatGPT API调用次数仍显著增加。我们认为，通过更好地利用MCTS交互历史，可以进一步减少训练成本，例如，使用所有的交互记录来指导后续的MCTS模拟，而不仅仅关注每轮中选出的最优动作。

伦理声明：我们的工作提出了一种对话策略规划算法，旨在促进未来对话系统的开发，并提高其在帮助用户或系统完成任务和目标方面的有效性。总体而言，尽管大多数算法并非设计用于不道德用途，但其应用中常常存在滥用的潜在风险。在我们的实验中，使用了ESConv (Liu et al., 2021) 和CIMA (Stasaski et al., 2020) 数据集，DPDP被用于帮助与患者进行情感支持对话以及指导学生完成翻译任务。然而，鉴于DPDP本质上是目标无关的，这意味着它可能被不当使用，例如用于欺诈等不道德行为。我们明确反对将DPDP用于任何非法或道德上不正当的活动。