OSWorld:真实计算机环境中开放式任务的多模式代理基准测试

OSWorld 是首个适用于多模式代理的可扩展真实计算机环境,支持任务设置、基于执行的评估以及跨操作系统的交互式学习。 它可以作为一个统一的环境来评估涉及任意应用程序的开放式计算机任务(例如上图中的任务示例)。 我们还通过可靠、可重复的设置和评估脚本在 OSWorld 中创建了 369 个真实计算机任务的基准。

摘要

以最少的人为干预完成复杂的计算机任务的自主代理有可能改变人机交互,显着提高可访问性和生产力。 然而,现有的基准测试要么缺乏交互环境,要么仅限于特定应用程序或领域的环境,无法反映现实世界计算机使用的多样性和复杂性,从而限制了任务的范围和代理的可扩展性。 为了解决这个问题,推出了 OSWorld,这是第一个可扩展的、真实的多模式代理计算机环境,支持任务设置、基于执行的评估以及跨各种操作系统(例如 Ubuntu、Windows 和 macOS)的交互式学习 。 OSWorld 可以作为一个统一的、集成的计算机环境,用于评估涉及任意应用程序的开放式计算机任务。 在 OSWorld 的基础上,我们创建了 369 项计算机任务的基准,涉及开放域中的真实 Web 和桌面应用程序、操作系统文件 I/O 以及跨多个应用程序的工作流程。 每个任务示例均源自真实世界的计算机用例,包括详细的初始状态设置配置和基于自定义执行的评估脚本,以实现可靠、可重复的评估。 对 OSWorld 上最先进的基于 LLM/VLM 的代理的广泛评估揭示了它们作为计算机助手的能力的重大缺陷。 虽然人类可以完成 72.36% 以上的任务,但最好的模型仅取得 12.24% 的成功,主要是在 GUI 基础和操作知识方面遇到困难。 使用 OSWorld 进行的综合分析为开发多模式通才代理提供了宝贵的见解,这是以前的基准测试无法实现的。

OSWorld环境基础设施

OSWorld 环境使用配置文件来初始化任务(以红色突出显示)、代理交互、代理完成时的后处理(以橙色突出显示)、检索文件和信息(以黄色突出显示)以及执行评估函数(以绿色突出显示) )。 相应的配置项以与环境中各自组件相匹配的颜色突出显示。 出于学习或评估目的,环境可以在单个主机上并行运行。 支持无头操作。

数据统计与比较

下面我们概述了 OSWorld 的主要统计数据,展示了概要和广泛的任务。 OSWorld 总共包含 369 个任务(以及 Windows 上的另外 43 个任务用于分析)。

我们将 OSWorld 与数字代理的其他一些不同基准进行了比较,如下所示。
这些列指示:它们是否提供可控的可执行环境(Control.Exec.Env.)、在开放域中添加涉及任意应用程序的新任务的难易程度(环境可扩展性)、对多模式代理评估的支持(Multimodal Support)、对 包含跨应用程序任务 (Cross-App)、从中间初始状态 (Intermediate Init. State) 启动任务的能力以及基于执行的评估函数 (# Exec.-based Eval. Func.) 的数量。

基准线

采用Mixtral和CogAgent等开源代表的最先进的LLM和VLM,以及OSWorld上GPT、Gemini和Claude系列的闭源代表作为LLM和VLM代理基线。 还探索了标记集辅助方法等方法,该方法已被证明可以提高视觉推理的空间能力。

分析

我们从模型、方法和人员方面进行定性分析,找出影响 VLM 在数字代理任务中表现的因素及其底层行为逻辑。 我们研究了任务属性(例如难度、可行性、视觉要求和 GUI 复杂性)、输入测量(例如屏幕截图分辨率、轨迹历史的影响和 UI 布局的影响)的影响,并探讨是否存在模式 代理在不同操作系统上的性能。 以下是我们的分析结果的概述。

与仅屏幕截图历史记录不同,较长的基于文本的轨迹历史记录上下文可以提高性能,但也会带来效率挑战。

VLM代理在不同操作系统上的性能具有很强的相关性。 这意味着在 OSWorld 框架内开发的见解和方法可以高度可靠地有效转移到 Windows 环境中。

LLM/VLM代理基线成功案例

不同设置下的运行时间和成本?

https://download.csdn.net/download/klam2020/89136113?ydreferer=aHR0cHM6Ly9tcC5jc2RuLm5ldC9tcF9kb3dubG9hZC9tYW5hZ2UvZG93bmxvYWQvVXBEZXRhaWxlZA%3D%3D

  • 39
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值