论文解读《Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents》

一支王同学

已于 2024-11-17 16:25:29 修改

阅读量1.4k

点赞数 16

分类专栏： NLP论文解读文章标签：语言模型自然语言处理

于 2024-11-14 12:02:09 首次发布

本文链接：https://blog.csdn.net/Wang_Dou_Dou_/article/details/143746232

版权

NLP论文解读专栏收录该内容

16 篇文章

订阅专栏

引言：一个月前也想到了这个 idea，我猜肯定也有人想到，终于在 ACL 2024 长文中被我发现啦哈哈哈哈哈

✅ NLP 研 2 选手的学习笔记

笔者简介：Wang Linyong，NPU，2023级，计算机技术
研究方向：文本生成、大语言模型
论文链接：https://aclanthology.org/2024.acl-long.61.pdf，2024 ACL(CCF A) 长文
项目链接：https://github.com/thunlp/Tell_Me_More
中文标题：《告诉我更多！语言模型驱动的智能体隐式用户意图理解研究》

0 摘要(Abstract)

● 【现存的问题】当前的语言模型驱动的智能体往往缺乏有效的用户参与机制，而用户参与机制对于用户指令中普遍存在的模糊性至关重要。虽然擅长设计策略和执行任务，但这些代理（agents）在寻求澄清和掌握精确的用户意图方面很困难。【本文的工作】为弥合这一差距，本文提出交互意图（IN3），一个新的基准，旨在通过显式查询（explicit queries）来检查用户的隐式意图（implicit intentions）。其次，提出在代理（agent）设计中引入模型专家作为上游，以增强用户-代理之间的交互；利用 IN3，经验地训练了 Mistral 交互，这是一个强大的模型，可以主动评估任务模糊性，询问用户意图，并在开始下游代理任务执行之前将其细化为可执行的目标。【实验效果】将其集成到 XAgent 框架中，我们对增强的 agent 系统在用户指令理解和执行方面进行了全面的评估，结果表明，该方法在识别模糊的用户任务、恢复和总结关键缺失信息、设置精确和必要的 agent 执行目标、减少冗余工具使用等方面具有明显的优势，从而提高了整体效率。所有的数据和代码都被释放了。

1 前言(Introduction)

● 大型语言模型，包括 OpenAI GPT (OpenAI, 2022, 2023), LLaMA （Touvron等人，2023a,b）和 Mistral 系列（Jiang等人，2023）在高质量文本和代码生成方面取得了巨大的进步 (Zeng等人，2022；Chowdhery等人，2023；OpenAI, 2023; Touvron等人，2023b)，复杂逻辑推理(Wei等，2022；Gao等人，2023；Yao等人，2022,2023)，并使用外部工具(Schick等人，2023；Qin等，2023，2024)。这些特性使语言模型能够与外部世界交互，并作为人工智能代理接收反馈以协助用户任务(Xi等人，2023；Wang等人，2023b)，启发了许多专注于智能体设计的开源框架，包括 BabyAGI (BabyAGI, 2023) AutoGen （Wu等人，2023b）、CAMEL （Li等人，2023）、AutoGPT （AutoGPT, 2023）和 XAgent （XAgent- team, 2023）等。这些框架通常利用主干语言模型的特殊能力来理解用户指令和执行用户任务。

● 然而，目前的代理（agent）设计很少考虑鲁棒的 用户交互，尽管 1）用户对代理（agent）系统的初始指令通常是模糊和简短的，2）不同的用户有不同的意图，需要明确的查询和启发。对用户明确而具体的需求的无知，常常导致代理（agent）在任务执行过程中出现 “假成功”，即看似完成了目标，但与用户的真实意图相差甚远。这强调了 隐式意图理解（implicit intention understanding） 在用户-代理交互过程中的重要性，从而进一步提高了代理设计的鲁棒性和效率。IN3 提供了数百个类别的通用代理任务，每个类别都具有模糊性、缺失的细节以及每个细节的重要性级别和选项，以激发用户的真实意图。此外，本文提出了一种创新的方法来评估现有的代理系统，通过纳入强调用户参与的两个关键方面来解决现有的评估差距：1）指令理解：为了直接评估意图理解的过程，定量度量了代理在用户-代理交互过程中对任务模糊性的判断和重要缺失细节的恢复。2）指令执行：为了间接反映意图理解的有效性，在给定初始（模糊）或最终（明确）用户目标的情况下，对智能体任务执行进行对比。

● 语言模型是智能体设计的核心，但初步测试表明，大多数语言模型严重缺乏主动询问和全面理解用户意图的主动性。这就提出了我们的研究问题：如何通过底层模型的鲁棒意图理解来增强代理系统的交互能力？【本文的研究问题】

● 为了解决这个问题，我们建议在代理设计中集成一个专门负责用户-代理交互的上游模型。如图 1 所示，为了明确地了解用户的特定意图，模型应该在将任务传递给下游执行之前主动和明确地询问用户丢失的细节。为增强这种交互能力，本文在 IN3 中应用训练拆分任务来构建模拟的模型-用户对话记录，提供 明确的初始想法、带选项的查询轮、隐式意图的摘要和多样化的用户响应语调。在这些对话的训练中，将 Mistral-7B 改造为 Mistral-interact，这是一个强大而鲁棒的变体，能够判断用户指令的模糊性，用建议（suggestions）主动查询缺失的细节，并明确总结详细而清晰的用户意图。

图1：在用户-代理交互之后，具有隐式或显式意图的代理执行的比较。【左图是隐式；右图是显式】

● 在实验中，将 Mistral-interaction 合并到 XAgent 框架（XAgent-Team, 2023）中，这是一个用于复杂任务求解的自主的代理系统。通过对用户指令理解和代理指令执行情况的综合评估，本文提出的 Mistal-Interact 能够正确判断 85% 以上的任务的模糊性，恢复 70% 以上的重要缺失细节，并无遗漏地总结 96% 以上的隐式用户意图；从而提高了代理的整体效率。Mistral-interact 的表现更符合人类的偏好，远优于之前的 LLaMA 和 Mistral 系列，与闭源 GPT-4 相媲美，但规模要小得多。该方法证明了在用户代理交互中集成较小的开源模型专家用于鲁棒的隐式意图理解的可行性，并讨论了其进一步的含义和未来方向。

2 相关工作(Related Works)

● LLM-driven Agent（大语言模型驱动的代理）。最近的大型语言模型（LLMs），包括闭源 GPT 系列（OpenAI, 2022, 2023）和开源的 LLaMA (Touvron等人，2023a,b), Mistral （Jiang等人，2023）系列，都证明了强大的推理能力(Wei等人，2022；Gao等人，2023；Yao等人，2022；Shinn等人，2023)，planning(规划) (Yao等人，2023；Besta等人，2023；Sel等人，2023；Hao等人，2023；Ye等人，2023a)和工具使用能力(Nakano等人，2021；黄等人，2022；Ahn等人，2022；Schick等人，2023；Patil等人，2023；秦等，2023,2024；钱斌等，2023b,c)。这些使 LLMs 能够作为人工智能代理与世界交互，完成复杂和接地的人类任务(Xi等人，2023；王等，2023b；BabyAGI, 2023;AutoGPT, 2023;Li等人，2023；Wu等人，2023b；XAgent-Team, 2023)。目前的一系列研究专注于通过工具创建增强智能体的能力(Cai等人，2024；Qian等人，2023b；Wang等人，2023a)，多模态能力(Gupta和Kembhavi, 2023；沈等，2023；Wu等人，2023a)和特定领域的工具和资源(Jin等人，2023；Lyu等，2023；Ye等，2023b)。其他研究涉及通信的多智能体框架(Park等人，2023；Li等人，2023；Qian等，2023a；Hu等，2023)，协作(Chen等，2024；Wu等人，2023b)和评估(Chan等人，2023；张等，2023)。【这些工作仍存在的不足】之前的工作没有充分考虑到用户在智能体设计中的作用，本文研究努力解决的问题。

● 用户意图理解。预测用户意图对于创建有吸引力的智能体至关重要。传统的用户意图理解方法包括支持向量机（SVM）（Sullivan, 2018）、朴素贝叶斯（Vikramkumar等人，2018）和 XGBoost (Chen和Guestrin， 2016)，其中 XGBoost 始终表现出优越的性能（Cai和Chen， 2020）。准确的用户意图理解是至关重要的，特别是在网络搜索引擎或社区问答平台等信息搜索场景中。MSDialog 等数据集（Qu等人，2018）和 SHDCRF 等模型（Shen等人，2011）分别有助于解析用户意图分布和从用户搜索会话中学习。使用手工特征对用户话语进行分类，例如利用维基百科（Hu等人，2009年）、文本和元数据特征（Chen等人，2012年）以及内容、话语、情感和上下文等因素（Cai和Chen， 2020年），可以显著增强用户意图理解。随着语言模型的兴起，现在可以通过零样本提示实现对用户意图的理解（Kotnis等人，2022），从而能够根据用户意图推荐面向任务的机器人（Kuo和Chen， 2023）。【强调本文工作】本文工作是第一个致力于将隐式用户意图理解纳入智能体设计的工作。

● 有效的互动策略。有一系列工作阐明了如何通过有效的沟通策略来增强交互式人工智能系统。Naszadi 等人（Naszadi等人，2023）探索了神经模型中不确定性度量的集成，以提示澄清问题，丰富协作对话理解。Mehta 等人（Mehta et al., 2024）提倡交互式的 human-AI 协作，其中 AI 智能体主动寻求帮助并根据人类反馈进行适应，从而提高交互式环境中的任务性能。Shi 等人（Shi等人，2022）通过引入建造者话语的注释，扩展了协同任务的范围，并提出了一个能够识别何时要求澄清的模型，在协同建造任务中取得了显著的性能提升。总的来说，这些工作强调了人类和 AI 智能体之间双向通信的重要性，以促进更自然和有效的合作。然而，与以前的方法不同，构建了一个专门的基准，为智能体设计，以显式查询用户，并采用多种策略来创建对话记录，训练智能体主动查询缺失的细节，以更好地理解用户的隐式意图。

3 意图-在-交互的基准(Intention-in-Interaction Benchmark)

3.1 动机(Motivation)

● 大多数智能体基准假设给定的任务是明确的，旨在评估智能体的执行能力。【目前存在的问题】然而，用户指令往往是模棱两可的。对于图 2 所示的任务 “在我的城市找到最好的瑜伽班”，说明中没有明确 “我的城市” 在哪里以及 “最好” 的标准是什么。所有这些模糊性要求更清楚地理解用户的真实意图，以提高代理的执行效率。

图2：用一个数据点举例说明 IN3 的形成过程。

● 为此，本文旨在制定一个更理性的智能体任务设置，其中用户对每个任务的真实意图是隐式的。这些任务的完成需要代理主动查询缺失的细节并了解用户的隐式意图。为全面增强和定量评估智能体设计中的这些能力，本文提出交互意图（Intention-in-Interaction，IN3），一个基准(benchmark)，努力以健壮、结构化和用户友好的方式评估和启发智能体的意图理解能力。

3.2 构建(Construction)

● IN3 提供了数百个类别的不同智能体任务（例如烹饪、艺术、编程），并注释了任务是否模糊，缺失的细节是什么（如果模糊），每个缺失细节的重要性级别（三个级别，越高越重要，在附录 A.2 中详细），以及每个缺失细节的潜在选项。关于图 2 所示的模糊的健康建议任务，IN3 提供了关于用户的城市和最佳标准的注释缺失的细节，并提供了演示潜在答案和激发用户真正意图的选项。由于瑜伽课程搜索离不开城市，所以城市的重要性（Lv 3）高于缺失的标准（Lv 2），这只会更好地匹配用户的偏好。

● 应用 GPT-4 以自我指导（self-instruct）的方式生成任务描述及其类别（Wang et al., 2023c）。我们总共考虑了 200 多个类别，并构建了 1300 多个不同的智能体任务。如图 2 所示，使用人工编写的种子任务（步骤 1），模型迭代地生成新任务来增强数据集，同时从数据集中抽样演示作为自己执行下一轮生成的新示例（步骤 2），详见附录 A.1。在 GPT-4 的帮助下，对每个任务的模糊性、缺失的细节以及每个细节的重要程度和潜在选项进行人工标注（步骤 3）。GPT-4 将首先用选项和重要程度建议任务的模糊性和潜在缺失的细节，而人工标注者将它们作为参考，并根据自己的视角和意图对其进行调整，详情见附录 A.2。

● 总的来说，IN3 可以用于评估智能体对任务模糊性的识别能力，评估智能体恢复重要缺失细节的能力，并有助于训练基础模型的隐式意图理解能力。IN3 也分为训练集和测试集，更多的统计细节见表 1。

表1：IN3 的训练集和测试集划分的详细统计数据。缺失的细节和选项数量根据模糊任务的数量进行平均。

3.3 研究问题(Research Problem)

● 由于语言模型是智能体设计的核心，我们利用 IN3 对当前模型在交互过程中的意图理解能力进行了初步测试，具体设置和评估在附录 B 中。【目前开源 LLMs 存在的问题】我们发现当前开源模型严重缺乏对任务模糊性做出精确判断、查询必要缺失细节以及全面总结用户意图的能力。

● 鉴于在隐式意图理解中发现的这些挑战，研究问题表述如下：对于每个任务 $t$ 具有一组缺失的细节 $D=\{d_1,d_2,\cdots,d_n\}$ ，我们希望代理将 $t$ 转换为 $t_{user}$ 进行执行，其中 $t_{user}$ 包含用户对每个缺失细节的所有隐式意图。这就需要通过底层模型的鲁棒的隐式意图理解来增强代理的交互能力。

4 方法(Method)

● 为进一步提高当前智能体设计的隐式意图理解能力，提出通过与用户对话训练一名擅长隐式意图理解的模型专家，并将其纳入智能体设计的上游模块。将代理执行过程表示为函数 $f$ ，则该模块应充当初始用户任务 $t$ 和下游执行 $f (t)$ 之间的 “缓冲区”。如果 $t$ 已经明确，模块应该直接传递 $t$ 以执行，而如果 $t$ 不明确，模块应该健壮地与用户聊天，将 $t$ 变成具有特定用户意图的 $t_{user}$ 。我们期望 $f(t_{user})$ 比 $f (t)$ 表现得更好，并且更符合用户的意图。

● 为了实现这一点，我们首先应用 IN3 构建会话记录进行训练。利用构建的交互数据，将 Mistral-7B 调整为 Mistral-Interact，一个强大的变体，能够判断用户指令的模糊性，主动查询缺失的细节和建议，并明确总结详细的用户意图。

4.1 训练数据的构建(Construction of Training Data)

● 为了通过交互增强模型对隐式意图的理解，还需要进一步训练模型如何通过对话查询缺失的细节。由于 IN3 为不同的智能体任务提供了注释，我们应用其训练分割来构建用于训练的对话记录，这是我们训练方法的一部分，而不是基准本身。为了实现对话构建过程的自动化和高效性，我们使用两个 GPT-4 来模拟对话，一个 GPT-4 模仿用户以完成特定的任务（User-GPT），另一个 GPT-4 模仿用户以清晰地理解用户意图（Assistant-GPT），利用 IN3 的注释作为帮助。

● 人类标注的 IN3 基准需要我们的评估任务，而对话记录需要我们的训练数据。提示在指导 GPT-4 模拟 User-GPT 交互方面的关键作用在附录 C 中进一步解释，其中内容故意保持通用，主要通过关于用户语气的明确说明来引入变化。请注意，更改其他提示描述对模型的模拟响应影响最小，GPT-4 强大的指令遵循能力使能够熟练地模拟用户行为，如第 6 节中所述。

● 策略。利用 IN3 对任务模糊性、细节缺失和潜在选项的标注，在会话记录构建过程中采用多种策略，以更好地激发目标模型的查询和推理能力。所有的策略都用图 3 中的一个例子加以说明，更多细节见附录 C。

图 3：应用不同策略构建会话记录。

● 明确的初始想法： 在 User-GPT 提出任务 $t$ 后，我们手动构建 Assistant-GPT 的初始想法，根据 IN3 中提出的对任务模糊性、缺失细节和潜在选项的明确判断。这有助于引导模型稍后查询核心细节，而不是在运行中进行推理。

● 带选项的查询： 对于每一轮对话，我们指示 Assistant-GPT 提供想法，并只问一个带选项的查询。调查是基于最初的想法中所列出的缺失的细节和选项。一次一个查询使模型查询不那么咄咄逼人，而提供的合理选项可以激发用户更深层次的思考，并鼓励明确表达隐性意图。所有这些都使模型的交互更加友好。

● 多样化的用户语调： 对于每一轮对话中的用户响应，提示 User-GPT 用不同的语调模仿用户，主要关注简洁（假设用户懒惰，提供短回复）和热情（假设用户提供长回复，并提供新信息）的响应模式。这有助于提高在其上训练的模型的适用性和鲁棒性。

● 明确的意图摘要： 指示 Assistant-GPT 明确总结所有用户提供的意图（包括对询问的响应和新信息），并在认为收集了足够的信息后，为用户目标 $t_{user}$ 提供更清晰的版本。这种思想使总结出来的文章更具逻辑性和全面性，没有遗漏。此外，总结出的具有用户意图的 $t_{user}$ 可直接应用于下游代理执行 $f(t_{user})$ ，从而促进训练模型与现有代理框架的无缝集成。

4.2 训练细节(Training Details)

● 通常，将训练 Mistral-7B 所构建的对话记录应用到 Mistral-Interact 中，旨在使模型更好地理解用户意图，将模糊的任务转化为清晰的主动性任务供代理执行。具体来说，我们将每个对话记录放入附录 D 中概述的模板中，并累计连接多轮交互，从而创建多个数据实例。具体的超参数详见附录 D.4。

5 实验(Experiments)

● 代理的意图理解能力可以通过用户交互直接评估，也可以通过下游任务执行间接评估。交互关注的是意图理解本身，而执行关注的是意图理解的最终目的，即提高代理设计的效率。

● 因此，为了全面评估代理设计交互能力的有效性，我们将实验分为两个方面：1) 指令理解： 评估代理 $t$ 在用户-代理交互过程中的意图理解能力，以直观地展示其优越性；2)指令执行： 使用上游的插件交互专家(plug-in interaction expert) 对代理任务执行情况进行评估，以反映其有效性。

5.1 对指示理解的评估(Evaluation on Instruction Understanding)

● 指令理解不涉及任何实时代理执行，因此我们在交互过程中直接评估语言模型本身，以判断它们作为代理设计中健壮的上游模块的能力。

5.1.1 实验设置(Experimental Settings)

● 数据和设置。我们使用 IN3 任务的测试分割进行评估。对于每个任务，让用户与目标模型进行开放式对话，在对话过程中，目标模型主动询问用户的意图。【人工评估的招募设置】我们招募不同专业水平的本科生用户参与对话并提供回复，详情见附录 E.1。整个对话过程会被记录下来，然后根据 IN3 中提供的真实情况进行评估。

● 模型和基线。将 Mistral-Interact 与 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 进行了比较。为了进行公平的比较，提示所有基线模型以及 Mistal-Interact 明确判断任务模糊性，要求丢失的细节，并总结用户的目标。

5.1.2 指标(Metrics)

● 主要指标。 我们提出新的指标，将用户代理交互中的主观人类意图转换为客观数值，从而简化数据分析和比较。

模糊性判断的准确性：我们计算模型对任务 $t$ 的模糊性（模糊或明确）的判断与真实值一致的百分比。这衡量了模型辨别模糊和清晰的能力，并避免询问已经明确的任务。
缺失细节恢复率： 对于不同重要程度的真实缺失细节，分析了在交互过程中模型恢复（显式查询）的百分比。这衡量了模型对查询必要细节的优先级的能力。
摘要意图覆盖率： 模型最终在 $t_{user}$ 中明确总结的用户提供意图的百分比。这衡量了模型全面、明确地总结用户意图而没有重复或遗漏的能力。

● 其他指标。 尽管有 3 个主要指标直接反映了模型理解用户隐式意图的能力，但也分析了其他对话细节以进行更全面的评估。

选项呈现率： 对于模型查询的所有缺失细节，分析它们伴随潜在选项的百分比。
选项合理率： 对于模型提供的选项，我们记录用户认为合理建议的百分比。这衡量了模型是否能够积极、积极地激发用户响应。
提供的平均选项数： 在查询期间，模型为一个缺失的细节提供的平均选项数。
平均查询的缺失细节数： 模型为一个任务查询的缺失细节的平均数量。
平均对话轮数： 模型针对一个任务与用户对话的平均轮数。
每轮平均查询缺失细节数： 模型在一轮对话中查询的缺失细节的平均数量。

● 我们在附录 E.3 中给出了每个度量标准的形式化定义和详细计算公式。

5.1.3 结果(Results)

● 根据表 2 所示的结果，我们对 Mistral-Interact 的研究结果总结如下：

更好地理解用户的判断。 在所有开源模型中，Mistral-Interact 在预测任务模糊性和用户认为必要的缺失细节方面是最好的。它的模糊性判断是最准确的，可以恢复 70% 以上的重要缺失细节，远优于 LLaMA-2-7B 和 Mistral-7B，性能与 GPT-4 相当。这可以归因于在训练中应用的结构化和全面的初始思想。
用户意图的全面总结。 Mistral-Interact 能够根据详细的用户意图进行明确而全面的总结。与其他开源模型相比，Mistral-Interact 的平均对话轮数最高，约为 4.5 轮。尽管结果是用户提供了更多的信息，但它仍然提供了较少遗漏的摘要，涵盖了所有用户意图的 96% 以上。
增强的模型-用户交互体验。 Mistral-Interact 更合理地询问遗漏的细节，从而促进更清晰地了解用户的隐含意图。这使得 Mistral-Interact 每轮问的问题更少（大约只有 1 个），但仍然保持较高的回收率，并为大多数缺失的细节提供大量合理的选择。这些特征能更好地激发用户的意图，而不是让他们感到满腹疑问。
与闭源GPT-4相当的性能。 小规模的模型专家可以在模糊性判断、摘要的全面性和交互的友好性方面接近甚至超过通用的大规模模型。Mistral-Interact 在大多数指标上的表现都与 GPT-4 相当，甚至在模糊判断、选项提供和对某些缺失细节的覆盖方面超过了 GPT-4。与 GPT-4 相比，Mistral-Interact 在达到相当性能的同时，具有更高的成本效率。

● 此外，我们还提供了 3 个案例研究，研究 Mistral-Interact 对各种用户响应风格、不合作用户和额外提供的信息的鲁棒性，详情见附录E.3.1。

表2：Mistral-Interact 与基线在 IN3 测试任务上的不同指标结果。箭头表示越高（↑）或越低（↓）越好。

5.2 指令执行的评价(Evaluation on Instruction Execution)

● 为了评估指令执行隐式意图理解的有效性，将 Mistral-Interact 作为上游交互模块集成到用于复杂任务求解的自主代理系统 XAgent 框架（XAgentTeam, 2023）中。我们通过性能比较和案例研究进行概念验证实验，如本节所述。

5.2.1 实验设置(Experimental Settings)

● 数据。 我们从 IN3 的测试中随机抽取了 10 个任务，这些任务 1）被标准摘要和 Mistral-Interact 都认为是模糊的，2）在 XAgent 的能力范围内。针对这些任务，从 User-agent 交互中提取初始模糊的任务描述和具有明确用户意图的摘要。然后，它们都被发送给代理执行，以进行评估和比较。每个任务的详细内容见附录 F.1。

● 设置。 启用 XAgent 框架的计划和执行引擎。XAgent 可以用于交互的环境包括 web搜索、代码执行、命令行和文件系统。我们使用 GPT-4 作为任务规划和执行的默认模型。

5.2.2 指标(Metrics)

● XAgent 在规划期间将用户的任务划分为子任务，每个子任务都有一组里程碑，代理希望通过工具调用链实现这些里程碑。设计了指标，旨在反映该方法在阐明用户目标和使代理执行更高效方面的有效性，测量详细见附录 F.1：

不必要的子任务/里程碑： 在具有明确用户意图的详细任务目标下，用户认为不必要的子任务或里程碑的百分比。
通用子任务/里程碑： 过于通用的子任务或里程碑的百分比，而不是专注于用户特定的意图。
每个子任务/里程碑的工具调用： 每个子任务或里程碑的平均工具调用时间，它反映了代理执行的效率。

5.2.3 结果(Results)

● 表 3 给出了定量评估结果，发现所提出方法有助于： 1）避免在执行过程中设置不必要的目标，2）使智能体更符合详细的用户意图，以及 3）提高智能体工具执行效率。这些都体现了 Mistral-Interact 作为上游 User-agent 交互专家在促进下游代理执行方面的有效性。

表3：有或没有合并 Mistral-Interact 作为交互的上游模块时，代理任务性能的比较。ST 表示子任务，MS 表示里程碑。

5.2.4 样例分析(Case Study)

● 为了清楚地说明 Mistral-Interact 的有效性，我们通过图 4 中的比较来展示一个案例研究。从标记为红色的短语中，我们发现，当用户的目标模糊时，XAgent 倾向于设置一般的子任务和里程碑，而不是专注于一个特定的法律主题或考虑用户的实际可用时间。从标记为紫色的短语中，我们发现 XAgent 还设置了不必要的子任务和里程碑。这是因为用户的任务太模糊而无法执行，并且 XAgent 倾向于编造不必要的细节（例如源评估），这与用户的真实意图不一致。

图4：代理设计中与 Mistral-Interact 交互前后代理执行的案例研究。

● 相比之下，在交互之后，新的任务目标促进定制的子任务和里程碑。我们在标记为绿色的短语中显示这种对齐。同时，执行变得更加简单，工具调用时间显著减少。所有这些都反映了一个更有效和高效的代理执行过程。

6 讨论(Discussions)

● 在代理场景中合并模型-用户交互。 目前，智能体设计通常将人类降级为外围角色，这促使我们致力于提高语言模型在智能体执行前理解用户隐式意图的能力。这种限制也可以通过其他方法来解决，包括在代理执行期间促进交互的机制。理想情况下，当代理系统面临多个选项、不明确的指令、关键的工具调用错误等情况时，应该能够及时向用户查询。此外，用户应该更积极地参与代理执行，这可能涉及整个工具调用过程中的任意用户中断，对潜在风险的代理操作授予权限，等等。这两个方面都需要代理系统内部复杂而微妙的协调，而不是简单地适应和利用单个模型专家的能力。这仍然是未来研究工作的一个令人兴奋的领域。

● 智能体场景下的模型-用户的交互评估。 评估交互的主要方法是通过隐式意图理解，既直接通过自适应模型的性能，也间接通过下游智能体的执行。我们提出的指标可以进行改进，以包含其他方面。例如，在代理执行期间，用户输入是不可预测的，因此对用户意图的解释可能包括更多维度，例如他们是否提供更多信息，中断执行，请求进度更新，或引入一个新主题，而不是仅仅关注任务模糊性。在努力将人类主观评价量化为客观数值进行比较的同时，也可以集成其他技术，如用户对交互的满意度的直接评估，他们对对话一致性的直接感知，以及他们对下游智能体最终输出的意见。这些可能会产生更全面的评估，尽管可能会引入个人偏见。

● 使用语言模型模拟用户。 在构建 IN3 数据集时，我们使用 GPT-4 来模仿用户，利用其模仿各种用户语调和响应风格的能力。例如，它可以有效地模仿不同语调（如愤怒、热情）和响应风格（如简洁、冗长）的用户。这使得在没有真正用户参与的情况下，可以生成用于强化学习和自动智能体评估的无监督交互，从而在耗时的智能体执行和交互中绕过了对用户的需求。虽然目前还没有考虑个人用户偏好，但集成个人会话历史等方法可以进一步改善特定用户的表示，增强模拟用户意图的一致性。

● Mistral-Interact 与 GPT-4 性能比较的启示。 比较表明，尽管 Mistral-Interact 的规模要小得多，但其性能与 GPT-4 类似，因为它的数据来自 GPT-4 的模拟交互。尽管如此，微小的差异仍然存在。例如，Mistral-Instruct 在最重要的细节恢复率方面表现逊于 GPT-4，这可以归因于在模型中捕获和保留大量世界知识方面的挑战。然而，它在强调用户交互质量的其他指标上优于其他指标，如选项呈现率和平均提供选项，这表明它有能力让用户参与更具交互性和协作性的对话。最终，本文旨在达成一种平衡，在提高智能体任务执行的同时增强用户体验。

● 代理意图理解与工具使用能力的统一。 我们将 Mistral-Interact 作为一个单独的模块嵌入在代理执行之前。然而，对代理更全面的理解应该使其能够同时进行用户意图理解和工具调用。在未来对智能体基础模型的训练中，研究人员可以将我们的对话记录与使用工具的数据相融合，训练智能体以健壮地理解用户意图，独立参与用户交互，并自主地确定何时开始执行工具。这将导致代理可以在工具执行和用户交互之间无缝切换，而无需显式预定义顺序，也不需要增加框架复杂性的额外模块。

7 结论(Conclusion)

● 本文研究了智能体设计中隐式意图理解的增强和评估。引入了交互意图（IN3）基准，以评估智能体从模糊指令中理解隐含意图的能力。本文还开发了 Mistral-Interact，一个开源模型，可以精确识别任务模糊性，寻求澄清并捕获用户意图。将其应用到 XAgent 中，证明了其在代理指令理解和执行方面的有效性。本文工作开创了在智能体设计中整合用户参与和隐式意图理解的先行者，为更强大的交互基准和系统铺平了道路。