结合蒙特卡洛树算法与对话规划：论文解读《Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning》

最新推荐文章于 2025-02-24 14:32:10 发布

青云遮夜雨

最新推荐文章于 2025-02-24 14:32:10 发布

阅读量1.2k

点赞数 22

分类专栏：论文笔记文章标签：算法 prompt chatgpt 深度学习人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/qq_51957239/article/details/142303812

版权

摘要

在目标导向的对话规划中，通常需要模拟未来的对话互动并估计任务进展。因此，许多方法考虑训练神经网络来执行前瞻性搜索算法，如A*搜索和蒙特卡洛树搜索（MCTS）。然而，这种训练往往需要大量的标注数据，当面临噪声标注或资源稀缺的情况下，会带来挑战。我们提出了一种名为GDP-ZERO的方法，使用开环MCTS进行目标导向的对话策略规划，而无需任何模型训练。GDP-ZERO在树搜索过程中，通过大型语言模型来充当策略先验、价值函数、用户模拟器和系统模型。我们在目标导向任务“PersuasionForGood”上评估了GDP-ZERO，发现其生成的响应在多达59.32%的情况下比ChatGPT更受青睐，并且在交互评估中，其说服力被认为优于ChatGPT。

主要工作

提出了一种新的目标导向对话规划方法，称为GDP-ZERO。GDP-ZERO通过提示大型语言模型（LLM）来模拟未来的对话互动进行规划（见图1），这使其特别适用于那些通常需要高质量对话和标注的任务。与以往的方法不同，我们将策略规划视为一个随机博弈，并在开环树搜索的每个阶段使用提示。我们在PersuasionForGood任务上对GDP-ZERO进行了评估，因该任务具有较高难度的规划要求（Wang等人，2019）。结果表明，无论是静态评估还是交互评估，GDP-ZERO生成的响应都更受欢迎，相比ChatGPT表现更佳。

图 1：使用 GDP-ZERO 通过零模型训练进行说服。

方法

在这项工作中，我们引入了GDP-ZERO，这是一种专注于算法的对话策略规划器，适用于像劝说等目标导向的对话任务。GDP-ZERO无需任何模型训练，而是在决策时通过提示大型语言模型（LLM）来模拟用户和系统的响应，评估当前任务的进展，并预测下一个对话行为的先验。基于Chen等人（2023b）的研究成果，我们的方法与现有的策略规划工作有两个主要区别：

我们使用少量样例提示（few-shot prompting），以绕过在噪声数据上进行模型训练的需求；
我们使用开环蒙特卡洛树搜索（Open-Loop MCTS），通过在树搜索过程中不断重新生成系统和用户的响应，减少模拟过程中累积的错误。

这种方法特别适用于那些数据噪声较大或者资源有限的环境，能够有效提高对话策略的规划能力。

问题定义

为了引入用于对话策略规划的树搜索方法，我们首先将规划表示为马尔可夫决策过程（MDP）。系统和用户之间的一个t轮对话可以表示为：

$h = (a_0^{sys}, u_1^{sys}, u_1^{usr}, ..., a_{t-1}^{sys}, u_t^{sys}, u_t^{usr})$

其中， $a_i^{sys}$ 是第i轮中系统的对话行为， $u_i^{sys}$ 是系统的响应， $u_i^{usr}$ 是第i轮中用户的发言。类似于Yang等人（2021）和Wang等人（2020）的工作，我们将规划下一个系统动作 $a^{sys}$ 定义为一个MDP问题 $\langle S, A, R, P, \gamma \rangle$ 。