OSWorld:真实计算机环境中开放式任务的多模式代理基准测试
在 OSWorld 的基础上,我们创建了 369 项计算机任务的基准,涉及开放域中的真实 Web 和桌面应用程序、操作系统文件 I/O 以及跨多个应用程序的工作流程。 每个任务示例均源自真实世界的计算机用例,包括详细的初始状态设置配置和基于自定义执行的评估脚本,以实现可靠、可重复的评估。 对 OSWorld 上最先进的基于 LLM/VLM 的代理的广泛评估揭示了它们作为计算机助手的能力的重大缺陷。 虽然人类可以完成 72.36% 以上的任务,但最好的模型仅取得 12.24% 的成功,主要是在 GUI 基础和
原创
2024-04-15 03:00:00 ·
974 阅读 ·
1 评论