PC-Agent:一种用于PC复杂任务自动化的分层多智能体协作框架

PC-Agent:一种用于PC复杂任务自动化的分层多智能体协作框架

刘浩伟1,2∗,张曦3∗,徐海洋3†,万彦言1,2,王俊阳4,阎明3†,张骥3,袁春锋1,2†,徐常胜1,2,胡卫明1,2,5,黄飞3

1中国科学院自动化研究所MAIS,中国
2中国科学院大学人工智能学院,中国
3阿里巴巴集团
4北京交通大学
5上海科技大学信息科学与技术学院,中国

liuhaowei2019@ia.ac.cn, cfyuan@nlpr.ia.ac.cn
{shuofeng.xhy, ym119608}@alibaba-inc.com

摘要

在基于多模态大语言模型(MLLM)的GUI智能体领域,与智能手机相比,PC场景不仅具有更复杂的交互环境,还涉及更复杂的跨应用工作流程。为了解决这些问题,我们提出了一种名为PC-Agent的分层智能体框架。具体来说,从感知的角度,我们设计了一个主动感知模块(APM)来克服当前MLLM在感知屏幕截图内容方面的不足。从决策的角度来看,为了更有效地处理复杂的用户指令和相互依赖的子任务,我们提出了一种分层多智能体协作架构,将决策过程分解为指令-子任务-动作层级。在这个架构中,设置了三个智能体(即经理、进度和决策),分别负责指令分解、进度跟踪和逐步决策。此外,还采用了一个反思智能体,以实现及时的自下而上的错误反馈和调整。我们还引入了一个新的基准PC-Eval,包含25个现实世界的复杂指令。在PC-Eval上的实证结果表明,我们的PC-Agent比之前的最先进方法在任务成功率上提高了32%。代码将公开发布。

1 引言

最近,多模态大语言模型(MLLM)[(Bai et al., 2023; Ye et al., 2024; Chen et al., 2024; Li et al., 2024)] 在各个领域取得了显著进展。基于MLLM强大的感知和推理能力,研究人员将其扩展为多模态智能体,以帮助人类完成各种任务。在这个领域,图形用户界面(GUI)智能体受到了广泛关注 [(Wang et al., 2024a; Agashe et al., 2024; Zhang et al., 2023; Wang and Liu, 2024)],因为通过智能体自动化智能设备(如智能手机、PC)具有巨大的应用潜力。

与智能手机相比,PC场景的复杂性体现在两个方面:(1) 更复杂的交互环境。PC的GUI包含更密集和更多样化的交互元素(即图标和小部件),以及不同的文本布局(例如Word中的文档和VS Code中的代码),这对屏幕感知提出了重大挑战。例如,如图1所示,Word的顶部功能区包含大量图标和小部件,但缺乏指示其功能的文本标签。因此,即使是最先进的MLLM(例如Claude-3.5)在感知和定位PC屏幕上的图标和文本时也表现不佳,在图1(a)的GUI定位数据集上仅达到24.0%的准确率。(2) 更复杂的工作流程。与智能手机相比,PC通常用于生产力场景,涉及更复杂的跨应用工作流程,并需要更长且更复杂的操作步骤。以在PC上“制定旅行计划”为例(如图1所示),它可能涉及四个应用程序中的多个子任务。因此,一方面,较长的操作序列(即总共28步)增加了感知任务进度的难度。另一方面,子任务之间的依赖关系要求智能体在做决策时考虑前一个子任务的执行结果,进一步增加了决策难度。如图1(b)所示,单个智能体(GPT-4o [Hurst et al., 2024])的指令级成功率(SR)从41.8%急剧下降到8%,突显了在PC上完成实际指令的挑战。

为了处理跨应用任务,之前的工作UFO [(Zhang et al., 2024)] 设计了一个双智能体框架,一个用于应用程序选择,另一个用于特定的控制交互。为了处理复杂的PC任务,Agent-S [(Agashe et al., 2024)] 结合了在线搜索和本地记忆以增强经验规划。然而,这些方法缺乏对屏幕上文本的细粒度感知和操作能力,这在生产力场景(例如Word文档编辑)中至关重要。此外,它们通常忽略了子任务之间的复杂依赖关系,因此在实际的软件内和跨软件复杂任务中的表现有限。

在本文中,我们提出了PC-Agent框架来处理PC场景中的复杂交互环境和复杂任务,该框架包括三个核心设计:(1) 主动感知模块。为了增强智能体的细粒度感知和操作能力,我们提出了一种主动感知模块(APM)。对于交互元素,我们使用可访问性树提取其位置和含义。对于文本,我们采用MLLM驱动的意图理解智能体进行目标文本提取,然后通过OCR获取精确位置。(2) 分层多智能体协作。为了提高处理复杂指令的能力,我们采用分而治之的方法,并提出了一种分层多智能体协作架构。具体来说,我们将决策过程分解为三个层次:指令-子任务-动作。在指令层面,经理智能体(MA)将用户指令分解为参数化的子任务,操作步骤显著减少,决策难度降低。MA还管理子任务间的通信,以处理它们之间的复杂依赖关系。在子任务层面,进度智能体(PA)跟踪并总结操作历史,以实现精确的进度感知。在动作层面,决策智能体(DA)结合APM的感知信息和PA的进度信息逐步做出决策,并与PC环境交互以完成分解后的子任务。(3) 基于反思的动态决策。基于上述架构,我们还引入了一种基于反思的动态决策机制,用于检测执行结果中的错误,并提供及时的反馈和调整。在动作层面设置了一个额外的反思智能体(RA),观察DA决策前后的屏幕变化,评估该步骤的正确性,并将反馈传达给DA和PA。图2显示了整个过程。结合分层多智能体协作架构和基于反思的动态决策,我们的PC-Agent框架可以从上到下分解复杂的用户指令,并在执行过程中从下到上提供精确的反馈。因此,四个智能体协同工作,减轻了PC上的交互环境和复杂工作流任务的难度。


在这里插入图片描述

图1:PC场景复杂性的示例:(1) 具有密集和多样化元素的复杂交互环境。(2) 包含软件内和跨软件工作流程的长且复杂的任务序列。

前两位作者对本文贡献相同。†通讯作者。

有关定位数据集的更多详细信息,请参见附录A.5。通过强调复杂的工作流程和长期决策,PC-Eval提供了具有挑战性和现实性的测试环境。将我们的PC-Agent与先进的基于MLLM的单智能体和现有的开源PC智能体在PC-Eval上进行比较,结果表明PC-Agent在指令级和子任务级成功率方面均取得了显著提升,证明了所提框架的有效性。

我们的贡献可以总结如下:

  1. 提出了一种PC-Agent框架,以克服现有方法在处理PC场景中复杂交互环境和复杂任务方面的局限性。设计了一个主动感知模块(APM),使PC-Agent具备精细的感知和操作能力。
  2. 为应对复杂的PC任务,我们提出了一种分层多智能体协作架构,将决策过程分解为三个层次(即指令-子任务-动作),并引入了一种基于反思的动态决策机制,以实现及时的错误反馈和调整。
  3. 创建了一个涉及8个常用PC应用程序的PC-Eval基准,以更好地评估智能体处理复杂用户指令的能力。


在这里插入图片描述

图2:提出的PC-Agent概述,将决策过程分解为三个层次。橙色线条表示自上而下的决策分解,紫色线条表示自下而上的反思过程。实验结果表明,所提出的PC-Agent在完成复杂的PC任务方面显著优于以前的方法。

2 PC-Agent

2.1 任务表述

给定一个GUI环境和用户指令I,GUI代理(记为ρ)获取关于环境的观察O(例如,屏幕截图)。基于内部推理和规划,它决定当前步骤的动作A,该动作与GUI环境交互并改变环境的状态。这一过程通常是逐步进行的。这个过程可以形式化为:

A i = ρ ( T , O i , H i − 1 ) , ( 1 ) \mathcal{A}_i = \rho(\mathcal{T}, \mathcal{O}_i, \mathcal{H}_{i-1}), \qquad (1) Ai=ρ(T,Oi,Hi1),(1)

其中( \mathcal{A}_i )和( \mathcal{O}i )分别表示第i步的动作和观察,( \mathcal{H}{i-1} )是直到第(i − 1)步的操作历史。PC中的复杂交互环境和任务序列增加了I、O和H的复杂性,需要设计一种针对复杂PC场景的代理框架。

2.2 主动感知模块

为了实现对交互元素和文本的精细感知和操作,我们提出了一种主动感知模块(APM)。

交互元素感知。我们首先使用pywinauto API提取屏幕界面的可访问性(A11y)树,过滤和解析交互元素的坐标和描述。然后,我们以SoM (Yang et al., 2023) 的方式在屏幕截图上标注元素的边界框,帮助MLLM理解这些元素的位置和含义。

文本感知。文本信息无法通过A11y树获得,而用户指令通常模糊地引用文本,使得直接获取目标文本的内容和位置变得困难。例如,“将此文档的最后两段加粗”。为了解决这个问题,我们提出利用主动感知来获取目标文本的内容和位置。如图3所示,对于涉及精细文本操作的任务(例如“选择”或“编辑”),决策代理输出“选择(目标文本)”动作。然后,APM使用由MLLM驱动的意图理解代理确定目标文本的起始和结束范围,接着使用OCR工具精确定位目标文本,以便进行后续的详细操作,如“拖动”。详细的案例见附录中的图6


在这里插入图片描述

图3:主动感知模块的示意图。对于交互元素,采用A11y树获取边界框和功能信息。对于文本,利用意图理解代理和OCR工具进行精确的选择或编辑。

2.3 分层多智能体协作

PC场景通常涉及软件内和跨软件的工作流程,增加了用户指令的复杂性。为了解决这个问题,我们采用分而治之的方法,将决策过程分解为三个层次:指令、子任务和动作。如图2所示,基于这种自上而下的分层分解,我们设计了多智能体协作架构:(1) 指令层面:设置一个经理智能体(MA)进行高级任务管理,包括将指令分解为子任务、子任务之间的通信以及整体进度。(2) 子任务层面:设立一个进度智能体(PA)来管理子任务的进度。(3) 动作层面:指定一个决策智能体(DA)来完成子任务。给定一个具体的子任务,DA基于环境感知和PA提供的操作历史,迭代地做出每一步的决策。

通过这种分层多智能体协作,复杂的用户指令被分解为几个相互依赖的子任务。经理、进度和决策智能体的协同努力有效地降低了整体决策难度,并提高了成功率。

2.3.1 经理智能体

在我们的分层多智能体协作架构中,LLM驱动的经理智能体(MA)在高级任务管理中发挥着关键作用:

  1. 指令分解。如图2所示,给定一个复杂的用户指令,MA首先将其分解为一系列参数化的子任务。每个子任务一旦实例化,就可以由进度智能体和决策智能体独立执行,从而有效降低单个任务的复杂性。
  2. 子任务间的通信。分解后的子任务通常具有复杂的相互依赖关系。具体来说,有四种类型的子任务:(a) 子任务的执行结果可用于实例化后续子任务(例如,图2中的子任务1);(b) 子任务依赖于前序子任务的执行结果进行实例化(例如,图2中的子任务3);© 子任务既依赖于前序子任务进行实例化,又为后续子任务提供执行结果(例如,图2中的子任务2);(d) 子任务与其他子任务无关(例如,在时钟应用中设置10点的闹钟)。在整个过程中,经理智能体管理子任务之间的通信和复杂的参数传递关系。它维护一个通信中心,将成功执行的子任务的输出更新到该中心,并使用该中心来实例化后续子任务。
2.3.2 进度智能体

在经理智能体完成指令分解和必要的子任务间通信以实例化参数化的子任务后,当前可独立执行的子任务被交给进度智能体(PA)。同样由LLM驱动的PA负责根据决策智能体的决策和反思智能体的反馈(将在第2.4节介绍)跟踪和总结子任务的进度。一旦当前子任务完成,PA会将输出结果反馈给MA。

在MA和DA之间设立独立的PA有两个目的:(1) 通过分而治之的方法实现更精确的进度跟踪。PA单独跟踪每个子任务的进度,避免了对整个指令级历史的总结,后者可能冗长且繁琐。(2) 通过向决策智能体提供更清晰的操作历史理解以及子任务中尚未完成的部分,从而促进决策。这避免了在决策过程中受到冗长的历史信息干扰。(2) 通过向决策智能体提供更清晰的操作历史理解以及子任务中尚未完成的部分,从而促进决策。这避免了在决策过程中受到冗长的历史信息干扰。

具体来说,PA在第i步的输入包括四个部分:(1) 由MA分配的当前子任务T;(2) 前一步的任务进度TP(_{i-1});(3) 第i步的决策智能体输出的动作A(_i);(4) 执行第i步动作后的反思R(_i)。基于这些信息,PA输出更新后的进度TP(_i)。上述过程可以形式化为:

T P i = P A ( T , T P i − 1 , A i , R i ) . ( 2 ) \mathcal{T}\mathcal{P}_i = PA(\mathcal{T}, \mathcal{T}\mathcal{P}_{i-1}, \mathcal{A}_i, \mathcal{R}_i). \qquad (2) TPi=PA(T,TPi1,Ai,Ri).(2)

2.3.3 决策智能体

由MLLM驱动的决策智能体(DA)是整个PC-Agent框架的核心智能体,负责生成动作决策并直接与环境交互。给定一个子任务T,在每一步中,DA首先使用感知模块获取当前环境的观察O(i)。然后将其与上一步PA输出的进度信息TP({i-1})以及RA输出的反思信息R(_{i-1})结合起来,生成当前步骤的决策A(_i)。这一过程可以形式化为:

A i = D A ( T , O i , T P i − 1 , R i − 1 ) . ( 3 ) \mathcal{A}_i = DA(\mathcal{T}, \mathcal{O}_i, \mathcal{T}\mathcal{P}_{i-1}, \mathcal{R}_{i-1}). \qquad (3) Ai=DA(T,Oi,TPi1,Ri1).(3)

在这里,决策以思维链(Wei et al., 2022)的方式生成。首先生成当前步骤的内心独白,然后生成相应的动作决策。这种方法不仅有助于MLLM做出更好的决策,还有助于RA判断执行结果是否符合预期。

在获得当前步骤的决策后,我们将决策信息转换为特定的动作类型和相应的参数,然后使用pyautogui API执行相应的键盘和鼠标操作。为了简化操作并使决策易于解析,我们定义了一个受限的动作空间,包括点击、双击、输入、选择、拖动、滚动、快捷键停止(详见附录A.3)。这个受限的动作空间确保DA能够有效地生成和执行决策,从而实现高效和准确的任务完成。

2.4 基于反思的动态决策

由于幻觉和有限的推理能力等因素,即使是最先进的MLLMs(例如,GPT-4o [Hurst et al., 2024], claude-3.5 [Anthropic, 2024])也难以避免在感知和决策中的错误。这个问题在需要长时间操作序列的任务中尤为突出,因为任何一步的错误都可能导致整个任务失败。

为了检测执行结果中的潜在错误并及时提供反馈和调整,我们设计了一种基于反思的动态决策机制。该机制建立在第2.3节介绍的分层架构之上,以自下而上的方式运行,核心是反思智能体。

2.4.1 反思智能体

在分层架构的动作级别,我们在决策智能体(DA)旁边设置了反思智能体(RA)。在决策智能体(DA)做出决策并执行相应动作后,反思智能体(RA)观察动作前后系统状态的变化,以确定该步骤的结果是否符合预期。这一过程可以形式化为:

R i = R A ( T , A i , O i − 1 , O i ) . ( 4 ) \mathcal{R}_i = RA(\mathcal{T}, \mathcal{A}_i, \mathcal{O}_{i-1}, \mathcal{O}_i). \qquad (4) Ri=RA(T,Ai,Oi1,Oi).(4)

根据执行结果,RA 会做出三种类型的判断:(1) 动作执行导致的截图变化不符合预期。这可能是由于 DA 的决策中动作类型或位置参数不正确,需要重新规划以纠正错误。(2) 动作执行后截图上没有产生有效响应。这可能是因为动作执行在一个没有交互元素的位置,或者元素(如输入框)尚未激活,需要调整动作执行位置。(3) 动作执行产生了正确的结果,允许 DA 基于此继续进行下一步决策。

在前两种情况下,RA 的输出将反馈给 DA,使 DA 能够基于反思信息生成决策以纠正错误或避免重复无效的动作。RA 的反思信息也将反馈给进度智能体(PA),使 PA 能够检测错误并实现更准确的进度跟踪。

3 实验

3.1 PC-Eval

现有的真实计算机环境基准测试(例如,OSWorld [Xie et al., 2024] 和 WindowsAgentArena [Bonatti et al., 2024]),尽管规模较大,但主要包含基本任务,可能不符合实际工作流程需求,例如“打开画图并绘制一个红色圆圈”。为了更好地评估代理在复杂 PC 任务上的能力,我们提出了一个新的基准测试 PC-Eval,它由 25 条复杂指令组成(总共 79 个子任务),涉及 8 个流行的 PC 应用程序(即 Chrome、Microsoft Word、Microsoft Excel、记事本、时钟、计算器、Outlook 和文件资源管理器)。每条指令包含几个相互依赖的子任务,并强调精细操作、实用工作流程和长期决策。三位注释者创建并检查了这些指令,以确保它们是现实且具有挑战性的。表 1 显示了三个示例指令,完整的列表见附录 A.4. 由于不同的子任务对应不同的页面和成功标准,为每个子任务创建单独的脚本来进行自动评估成本过高。因此,在这项研究中我们采用人工评估,并使用以下两个指标进行评估:

(1) 成功率(SR):成功率指标是指代理成功完成指令的比例。(2) 子任务成功率(SSR):为了全面评估代理的能力,我们对 PC-Eval 指令的子任务进行了标注,并计算代理完成子任务的成功率。

3.2 结果

实验设置。除非另有说明,在实验中,我们使用 GPT-4o 作为我们的 PC-Agent 框架中的经理、进度、决策和反思智能体的基础模型。并且我们在 APM 中使用 OpenOCR 工具进行 OCR。我们将我们的 PC-Agent 与广泛的单代理和多代理方法进行比较,包括先进的 MLLM 如 GPT-4o [Hurst et al., 2024]、Gemini-2.0 [Team et al., 2023]、Claude-3.5 [Anthropic, 2024]、Qwen2.5-VL 72B [Team, 2025],以及之前的开源 PC 代理方法如 UFO [Zhang et al., 2024] 和 Agent-S [Agashe et al., 2024]。为了尽可能公平地比较,我们通过提示为 MLLM 设置相同的操作空间,使它们能够作为一个单一的决策代理运行。对于多代理方法 UFO 和 Agent-S,我们也采用 GPT-4o 作为它们的基础模型。5-VL 也仅实现了 12% 的成功率。这表明,当前的 MLLM 在处理复杂用户指令时存在显著挑战。此外,这些模型的整体成功率远低于其子任务的成功率,进一步说明了操作序列较长和子任务间依赖关系复杂对整体任务完成的影响。

多代理方法的结果。UFO 和 Agent-S 是专为 PC 场景设计的多代理框架。然而,在 PC-Eval 测试中,UFO 仅比使用 GPT-4o 的单代理略有优势。尽管 Agent-S 在子任务成功率上有所提升,但其在指令级别的成功率仍然较低。具体分析揭示了以下问题:

  1. 细粒度感知和操作能力有限:例如,在如图 4 所示的 Excel 场景中,UFO 可能会将多条信息输入到同一个单元格中。而在如图 6 所示的 Word 场景中,UFO 和 Agent-S 都无法执行编辑操作(例如,“下划线最后一段”)。
  2. 处理复杂指令中的子任务依赖关系不足:特别是在后续子任务依赖于前一个子任务结果的情况下。例如,在指令“… 并写下内容的翻译”中,Agent-S 会直接写下文本“内容的翻译”,而不是之前获得的翻译内容。

相比之下,我们提出的 APM 赋予了 PC-Agent 更精细的操作能力。通过分层多智能体协作,PC-Agent 实现了有效的指令分解、子任务间通信、进度管理和错误反思,从而显著提高了其在复杂任务上的性能。

应用程序指令步骤数
文件资源管理器
记事本, 时钟
计算器
在记事本应用中,打开 ‘Documents’ 中的 ‘travel_plan’ 文件,并检查旅行计划的时间和地点。
将旅行目的地添加到时钟应用的世界时钟列表中。在计算器中计算 2 月 18 日与旅行开始时间之间的间隔。
20
Chrome
Excel
在 Chrome 中搜索 2024 年中国、美国和印度的人口总数。
在 Excel 中创建一个新的电子表格,在 A 列按人口降序写入三个国家的名称,并在 B 列写入相应的人口数。
23
文件资源管理器
Word
在文件资源管理器中打开 ‘Documents’ 中的 ‘test_doc1’ 文件,在 Word 中将标题设置为粗体,并将前两段的行间距设置为 1.5 倍。8

表 1:PC-Eval 中的复杂指令示例。

表 2:PC-Eval 基准测试的动态评估结果。

模型类型子任务成功率 (%) ↑成功率 (%) ↑
Gemini-2.0单代理35.4%0.0%
Claude-3.515.2%0.0%
Qwen2.5-VL46.8%12.0%
GPT-4o41.8%8.0%
UFO (Zhang et al., 2024)多代理43.0%12.0%
Agent-S (Agashe et al., 2024)55.7%24.0%
PC-Agent (我们的)76.0%56.0%

结果显示,我们的 PC-Agent 在很大程度上优于所有先前的方法,在成功率方面分别超过 UFO 和 Agent-S 44% 和 32%。

3. 主动感知模块(APM):该模块对性能有显著影响。比较第一行和第四行可以看出,去除 APM 后,子任务成功率下降了近 20%,整体成功率大幅下降超过 30%。没有 APM,决策智能体无法理解交互元素的意义,从而导致更多错误。此外,PC-Agent 丧失了精确感知和操作所指文本的能力,导致指令完成率显著下降。

  1. 管理智能体:管理智能体有效提高了 PC-Agent 在复杂工作流程场景中的能力。比较第二行和第四行可以看出,去除管理智能体后,子任务成功率显著下降至 12%。这是因为没有管理智能体,复杂的指令将被当作一个单一任务由感知智能体和决策智能体执行。冗长的操作序列和子任务之间的复杂依赖关系对进度跟踪提出了巨大挑战,并且干扰了决策智能体的决策。

  2. 基于反思的动态决策机制:该机制有助于模型从错误中恢复。比较第三行和第四行可以看出,去除反思智能体会导致性能大幅下降(即子任务成功率下降 27.9%,整体成功率下降 44.0%)。在执行复杂指令时,感知和决策中的错误是不可避免的。去除反思智能体使得模型缺乏对错误的认识和及时纠正,从而容易陷入无意义的重复或错误步骤。

我们还对基础模型进行了消融实验,请参见附录 A.1 以获取详细信息。

3.4 案例研究

4 展示了我们的 PC-Agent 框架的一个完整操作过程。给定一个复杂的用户指令,管理智能体首先将其分解为四个子任务。对于前三个子任务,每个子任务成功执行后,相应的搜索结果会在通信中心更新。然后,管理智能体使用通信中心实例化第四个子任务,这降低了长周期决策过程的难度。此外,Excel 中精确的点击和输入操作展示了我们提出的 APM 在感知复杂屏幕元素方面的有效性。我们还提供了一个基于反思的动态决策案例研究。请参见附录 A.2 以获取详细信息。

消融研究管理智能体反思智能体子任务成功率成功率
58.2%20.0%
50.6%12.0%
48.1%12.0%
76.0%56.0%

表 3:APM 模块、管理智能体和反思智能体的消融研究结果。
在这里插入图片描述

图 4:多次搜索信息并据此构建 Excel 表格的案例。

4. 相关工作

最近在大规模语言模型 (MLLMs) 方面的进展 (Hurst et al., 2024; Liu et al., 2024; Wang et al., 2024b) 激发了将这些模型扩展到各个领域中的智能代理的研究。其中,GUI 代理在智能设备上的任务自动化方面受到了广泛关注。目前,该领域的研究主要集中在移动 (Zhang et al., 2023; Wang et al., 2024a; Hong et al., 2024) 和 Web (Gur et al., 2023; Zheng et al., 2024) 场景上。在 PC 场景中,Cradle (Tan et al., 2024) 专注于利用 MLLM 的推理能力实现 AAA 游戏中的操作,而 PC Agent (He et al., 2024) 则旨在使代理能够创建和修改 PowerPoint 演示文稿。尽管取得了显著进展,但它们的多功能性仍然相对有限。为了处理跨应用程序任务,UFO (Zhang et al., 2024) 设计了一个双代理框架,其中一个代理负责应用程序选择,另一个代理处理具体的控制交互。为了将 PC 任务知识注入决策中,Agent-S (Agashe et al., 2024) 结合在线搜索和本地记忆进行经验增强规划。与以前的方法相比,我们的 PC-Agent 专注于复杂的 PC 任务。通过设计的 APM 实现了更精细的感知和操作(例如编辑 Word 文档),并且提出的分层框架实现了复杂指令的分而治之流水线,有效地解决了子任务间的依赖关系,并显著提高了复杂任务的性能。

5. 结论

在这项工作中,我们提出了一种 PC-Agent 框架来处理 PC 场景中的复杂交互环境和任务。设计了一个主动感知模块以实现精细的感知和操作能力。我们提出了一种分层多智能体协作架构,将决策过程分解为三个层次,并采用了基于反思的动态决策机制以实现及时的错误反馈和调整。我们创建了一个包含现实且复杂的用户指令的 PC-Eval 基准。实验结果验证了 PC-Agent 在复杂 PC 任务上相对于先前方法的优越性能。

局限性

在本文中,我们探索了多种大规模语言模型作为基础模型。目前,表现最好的模型仍然是闭源的 GPT-4o。然而,通过调用闭源模型来提高完成复杂任务的效率仍有很大的改进空间。此外,与闭源模型相关的隐私和安全问题也值得关注。此外,与闭源模型相关的隐私和安全问题也值得关注。另外,本工作的重点主要集中在生产力场景上。在未来的研究中,我们将进一步探索将这些方法扩展到社交互动和娱乐等更多应用场景。

参考文献

  • Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, 和 Xin Eric Wang. 2024. Agent s: 一个像人类一样使用计算机的开放代理框架. arXiv 预印本 arXiv:2410.08164.

  • Anthropic. 2024. Claude 3.5 sonnet. https://www.anthropic.com/news/3-5-modelsand-computer-use.

  • Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, 和 Jingren Zhou. 2023. Qwen-vl: 一种具有多功能能力的前沿大型视觉-语言模型. arXiv 预印本 arXiv:2308.12966.

  • Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Yadong Lu, Justin Wagle, Kazuhito Koishida, Arthur Bucker, 等. 2024. Windows 代理竞技场:大规模评估多模态操作系统代理. arXiv 预印本 arXiv:2409.08264.

  • Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, 等. 2024. Internvl: 扩展视觉基础模型并对其对通用视觉-语言任务进行对齐. 在 IEEE/CVF 计算机视觉和模式识别会议论文集, 第 24185–24198 页.

  • Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, 和 Aleksandra Faust. 2023. 一个具有规划、长上下文理解和程序合成功能的真实世界 Web 代理. arXiv 预印本 arXiv:2307.12856.

  • Yanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, 和 Pengfei Liu. 2024. PC 代理:当您睡觉时,AI 工作——进入数字世界的认知之旅. arXiv 预印本 arXiv:2412.17589.

  • Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, 等. 2024. Cogagent: 用于 GUI 代理的视觉语言模型. 在 IEEE/CVF 计算机视觉和模式识别会议论文集, 第 14281–14290 页.

  • Aaron Hurst, Adam Lerer, Adam P Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, 等. 2024. Gpt-4o 系统卡. arXiv 预印本 arXiv:2410.21276.

  • Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Peiyuan Zhang, Yanwei Li, Ziwei Liu, 等. 2024. Llavaonevision: 简易视觉任务迁移. arXiv 预印本 arXiv:2408.03326.

  • Haotian Liu, Chunyuan Li, Qingyang Wu, 和 Yong Jae Lee. 2024. 视觉指令微调. 神经信息处理系统进展, 36.

  • Weihao Tan, Wentao Zhang, Xinrun Xu, Haochong Xia, Gang Ding, Boyu Li, Bohan Zhou, Junpeng Yue, Jiechuan Jiang, Yewen Li, 等. 2024. Cradle: 赋能基础代理以实现通用计算机控制. 在 NeurIPS 2024 开放世界代理研讨会.

  • Gemini 团队, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, 等. 2023. Gemini: 一系列高度功能化的多模态模型. arXiv 预印本 arXiv:2312.11805.

  • Qwen 团队. 2025. Qwen 2.5 vl. https://qwenlm.github.io/blog/qwen2.5-vl.

  • Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, 和 Jitao Sang. 2024a. Mobile-agent: 具有视觉感知能力的自主多模态移动设备代理. arXiv 预印本 arXiv:2401.16158.eqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, 等. 2024b. Qwen2-vl: 提升视觉-语言模型在任意分辨率下的感知能力. arXiv 预印本 arXiv:2409.12191.

  • 王小强和刘邦。2024. Oscar:通过状态感知推理和重新规划进行操作系统控制。arXiv 预印本 arXiv:2410.18963

  • Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, 等。2022. 通过链式思维提示在大型语言模型中引发推理。神经信息处理系统进展, 35:24824–24837。

  • 谢天宝, 张丹阳, 陈继轩, 李晓川, 赵思恒, 曹瑞生, Toh Jing Hua, 程周俊, 申东灿, 雷方宇, 等。2024. Osworld:在真实计算机环境中对开放式任务的多模态代理进行基准测试。arXiv 预印本 arXiv:2404.07972

  • 杨建伟, 张浩, 李峰, 邹雪燕, 李春元, 和高建峰。2023. 标记集提示释放 GPT-4V 中非凡的视觉基础能力。arXiv 预印本 arXiv:2310.11441

  • 叶庆豪, 徐海洋, 叶家博, 严明, 胡安文, 刘浩伟, 钱琪, 张吉, 和黄飞。2024. mplug-owl2:通过模态协作革新多模态大型语言模型。在 IEEE/CVF 计算机视觉和模式识别会议论文集, 第 13040–13051 页。

  • 张超云, 李立群, 何世林, 张旭, 乔波, 秦思, 马明华, 康宇, 林清伟, Saravan Rajmohan, 张冬梅, 和张奇。2024. UFO:面向用户界面的 Windows 操作系统交互代理。arXiv 预印本 arXiv:2402.07939

  • 张驰, 杨昭, 刘佳轩, 韩宇成, 陈欣, 黄泽彪, 符斌, 和于刚。2023. Appagent:作为智能手机用户的多模态代理。arXiv 预印本 arXiv:2312.13771

  • 郑博远, 苟伯远, Kil Jihyung, 孙欢, 和苏宇。2024. 如果有基础,GPT-4V(ision)是一个通用的网络代理。arXiv 预印本 arXiv:2401.01614

A 附录

A.1 基础模型的消融实验

4 比较了不同 MLLM 的性能。除了 SR 和 SSR 之外,我们还引入了两个额外指标来评估使用不同 MLLM 作为基础模型的结果:

  • 恢复率:衡量发生恢复的指令比例。恢复行为表示代理检测到错误并通过反思进行纠正(无论指令最终是否完成)。
  • 管理者 SR:评估管理者代理正确分解用户指令的能力。

从表中可以看出,由 GPT-4o 驱动的 PC-Agent 在 SSR 和 SR 方面显著优于使用 Gemini-2.0、Claude-3.5 和 Qwen2.5-VL 的结果。此外,在恢复率方面,GPT-4o 比 Gemini-2.0 高出 40%。这可能归功于 GPT-4o 更强的感知和推理能力。值得注意的是,与单独使用 Qwen2.5-VL 的代理相比,使用 Qwen2.5-VL 的 PC-Agent 的 SSR 和 SR 实际上有所下降。详细分析表明,这是由于 Qwen2.5-VL 在遵循输出动作格式方面的文本能力有限,以及判断任务是否完成的能力不足。后者在指令被分解为子任务后变得更加严重。总之,表 4 的结果突显了 MLLM 的能力是框架有效性的基础。

A.2 更多案例研究

5 展示了 PC-Agent 框架中的一个例子,其中提出的反思机制防止了重复的无效操作。如图所示,在决策代理(DA)点击 Chrome 浏览器的“前进按钮”而没有产生有效响应后,反思代理(RA)检测到了这个错误并将其反馈给 DA。基于此反馈,DA 在下一步重新考虑并执行了正确的操作(即使用快捷键 Command + T 打开新标签页)。

A.3 动作空间

我们定义的动作空间如下:

  • 打开应用(名称):使用系统的搜索功能打开特定的应用程序。
  • 单击(x, y):在位置 (x, y) 单击鼠标。
  • 双击(x, y):在位置 (x, y) 双击鼠标。
  • 选择(文本):通过调用主动感知模块(APM)获取目标文本的内容和位置。
  • 输入(x, y)[文本]:在位置 (x, y) 输入文本内容。
  • 拖动(x1, y1)(x2, y2):通过拖动选择特定区域的文本内容。
  • 滚动(x, y)(值):在位置 (x, y) 上下滚动页面。
  • 快捷键(按键列表):使用快捷键,例如通过 ctrl+s 保存。
  • 停止:所有要求都已满足,结束当前过程。

A.4 PC-Eval 中的指令

我们展示了 PC-Eval 的完整指令列表如下:

模型子任务 SR (%) ↑成功率 (%) ↑恢复率 (%) ↑管理者 SR (%) ↑
Gemini-2.055.7%28.0%24.0%84.0%
Claude-3.563.3%40.0%48.0%88.0%
Qwen2.5-VL32.9%12.0%15.0%75.0%
GPT-4o78.5%55.0%64.0%92.0%
GPT-4o78.5%55.0%64.0%92.0%
模型 X0%40.0%88.0%
GPT-4o76.0%56.0%64.0%96.0%

表 4:不同基础模型在 PC-Eval 上的 PC-Agent 性能结果。

任务指令:分别在 Chrome 浏览器中搜索 2025 年的国际劳动节美国独立日的日期,并使用计算器应用程序计算这两个日期之间的间隔。
在这里插入图片描述

图 5:在 Chrome 中执行多次连续搜索时的一个反思案例。

  • 在记事本应用程序中,打开“Documents”中的“memo”文件,检查早上的第二个事件。在时钟应用程序中为此事件提前 1 小时设置闹钟。
  • 打开“Documents”中的“memo”文件,确认与 John 会面的地点。随后,在 Chrome 浏览器中查询从帝国大厦到该地点所需的时间。
  • 访问“Documents”中的“memo”文件,核实与 John 会面的具体时间和地点。利用 Chrome 浏览器查找从帝国大厦到目的地所需时间,并在时钟应用程序中设定合适的提醒,确保准时到达会议地点。
  • 打开“Documents”中的“travel_plan”文件,查看旅行目的地。通过 Chrome 浏览器检索该地区的交通规则(左行或右行)。
  • 在 Chrome 浏览器中分别查找 2025 年国际劳动节和美国独立日的确切日期,并使用计算器应用程序计算两者之间的时间差。
  • 查看“Documents”中的“travel_plan2”文件,确定三个备选旅行目的地。在 Chrome 浏览器中搜索从北京飞往每个目的地的飞行时间,并告知哪个选项的飞行时间最短。
  • 使用 Chrome 浏览器获取 Nvidia、Apple 和 Microsoft 的最新股价信息。在 Excel 中新建一个电子表格,A 列记录公司名称,B 列填写对应的股价。
  • 通过 Chrome 浏览器查询 2024 年中国、美国及印度的人口总数。在 Excel 中创建新工作表,按人口数量降序排列这三个国家的名字于 A 列,并在 B 列标注各自的人口数。
  • 在 Word 中新建文档,撰写两段关于阿里巴巴和 OpenAI 的介绍文字。保存此文档为“Tech-Companies”。
  • 从 Chrome 浏览器下载论文《Attention is all you need》,并摘录其摘要。在 Word 中建立新文档,录入摘要内容,并命名为“Transformer”。
  • 通过 Chrome 浏览器访问 IMDb 网站,查询电影《星际穿越》和《十二怒汉》的评分。打开“Documents”中的“movie_rate” Excel 文件,更新相关电影的评分数据。

任务指令:在文件资源管理器中打开“Documents”中的“test_doc2”文件,在 Word 中将标题居中,并将最后一段文字设置为下划线。
在这里插入图片描述

图 6:Word 应用程序中精细文本编辑操作的一个案例。

  • 打开“Documents”中的“test_doc1”文件,将标题加粗处理,并调整前两段文字的行间距至 1.5 倍。
  • 在“Documents”中找到“test_doc2”文件,于 Word 中使标题居中显示,并给最后一段添加下划线效果。
  • 打开“Documents”里的“test_doc3”文件,在正文下方添加翻译内容。
  • 访问 arxiv.org 网站,搜索有关“多模态代理”的学术文章,下载第一篇搜索结果。
  • 在 Outlook 中阅读发给 Howie 的邮件“Travel”,记录旅程起止点及出发日期。前往 booking.com 查询单程机票信息。
  • 通过 Chrome 浏览器查询电影《这个杀手不太冷》、《肖申克的救赎》以及《2001:太空漫游》在 IMDb 上的评分。使用记事本创建 .txt 文件,按照评分高低顺序记录这些数据。
  • 阅读 Outlook 中 Howie 发来的邮件“Code”,下载附件“homework.py”。在 Visual Studio Code 中打开并修复代码错误。
  • 在 Visual Studio Code 中编写一个新的 Python 脚本,实现接收列表输入并返回第 k 大元素的功能。完成后通过电子邮件发送给 Howie。
  • 通过 Chrome 浏览器收集东京和京都旅游景点的相关资料,并整理成新的 Word 文档。
  • 参考“Documents”中的“test_doc3”文件,针对其中文内容创建相应的英文翻译版 Word 文档。
  • 调整“Documents”内“test_doc1”文件标题字体大小,使其增加一级。
  • 检查“Documents”中的“travel_plan”文件,了解旅行计划的时间和地点。将目的地添加到时钟应用程序的世界时钟列表中,并使用计算器应用程序计算 2 月 18 日与旅行开始日期之间的天数差异。
  • 重复上一步骤中关于 2024 年中国、美国和印度总人口的数据收集过程,但这次请确保在 Excel 表格中按人口数量降序排列国家名称。
  • 对“Documents”中的“test_doc1”文件进行修改,包括将标题设为加粗格式,并且把前两段文字的行间距调整至 1.5 倍。
  • 比较 Amazon、Walmart 和 Best Buy 上新款 Nintendo Switch 游戏机的价格,记录最低价及其来源网站。
  • 阅读 Howie 发送的邮件“Travel”,提取旅程详情(起点、终点、日期)。登录 booking.com 查找往返航班选项。

A.5 我们的 GUI 接地数据集

在 Booking.com 网页上:

  • 点击预订航班
  • 选择单程票
  • 设置出发城市
  • 输入目的地
    在这里插入图片描述

图 7:展示了我们在 PC 场景中常用应用程序构建的 GUI 接地数据集的一个示例截图。com 网页上:

继续在 Booking.com 页面上:

  • 点击选择日期
  • 选择 3 月 21 日
  • 选择 4 月 1 日
  • 选择上个月
  • 选择下个月

在 Excel 页面上:

  • 选择单元格 A3
  • 选择单元格 E5
  • 选择顶部对齐
  • 选择底部对齐
  • 选择左对齐
  • 选择右对齐
  • 保存文件
  • 更改文件名
  • 更改保存位置

在文件资源管理器页面上:

  • 打开下载文件夹
  • 打开文档文件夹
  • 打开图片文件夹
  • 打开音乐文件夹

在 Outlook 页面上:

  • 查看收件箱
  • 查看垃圾/垃圾邮件
  • 查看已发送邮件
  • 查看发送给 Howie 的 Travel 邮件
  • 查看发送给 Howie 的 Code 邮件
  • 使用搜索功能
  • 创建新邮件
  • 标记为已读

在 Chrome 页面上:

  • 点击搜索栏
  • 在搜索框中输入内容
  • 打开新标签页
  • 添加收藏
  • 进入设置
  • 刷新页面
  • 切换到 Booking.com 标签页

在 Word 页面上:

  • 应用加粗格式
  • 应用斜体格式
  • 添加下划线
  • 更改文本颜色
  • 居中对齐文本
  • 增大字体大小
  • 减小字体大小
  • 调整行间距
  • 选择标题的左上角
  • 选择标题的右下角
  • 选择倒数第二段的左上角
  • 选择倒数第二段的右下角
  • 选择最后一行的右下角
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值