论文标题:
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale [2024.09.12]
《Windows Agent Arena:大规模评估多模式 OS 代理》
论文地址:
arxiv.org/abs/2409.08264
论文创新点:
• WindowsAgentArena允许智能体在真实的Windows操作系统中自由操作,解决了此前测试平台的环境和模态限制问题。
• 该研究开发了Navi智能体,验证其在该平台中的表现,并发现智能体的成功率为19.5%,相比无助力的人的74.5%仍有较大提升空间。
• 该论文开源了所有代码和基准任务,旨在推动多模态智能体在Windows环境中的开发与评估。
导 读
WindowsAgentArena是一个针对多模态操作系统(OS)智能体的测试平台,专门用于Windows环境。随着大语言模型(LLMs)在任务规划与推理方面的能力不断提升,测试这些模型作为计算机智能体在现实世界中的表现变得至关重要。
WindowsAgentArena通过并行化任务执行,显著缩短了复杂任务评估的时间。此外,本文还引入了名为Navi的智能体,分析其在Windows任务中的表现,并为未来研究提供了深入的见解。
WindowsAgentArena基准测试套件的架构
研究概述
该文介绍了WindowsAgentArena,这是一个用于评估多模态操作系统(OS)智能体的全新基准测试平台,专门针对Windows操作系统环境。当前的智能体在诸如网页导航、编程和问答等特定领域已经展示了强大的能力,但在复杂的多模态环境下(如Windows操作系统),智能体的表现评估依然存在困难。为了解决这些挑战,WindowsAgentArena提供了一个可扩展且可复现的测试环境,允许智能体在真实的Windows操作系统中执行跨应用、多步骤的任务。
研究开发了Navi这一多模态智能体,并在WindowsAgentArena上进行了广泛的测试。Navi展示了在Windows环境下的任务执行能力,其成功率达到了19.5%。此外,Navi还在另一项基准测试Mind2Web中取得了较好的表现。
研究数据
平台设计了154个多步骤任务,涵盖多种应用和任务领域,包括文档编辑、网络浏览、系统设置、代码编辑、媒体播放等。这些任务代表了Windows用户的常见工作负载。任务分布在11个不同的程序/应用中,具体数据如下:
• 文档编辑(Office类任务):43个任务。
• 网络浏览:30个任务。
• 系统任务(文件管理、设置):24个任务。
• 编程相关:24个任务。
• 媒体播放与视频:21个任务。
• Windows实用工具(如记事本、时钟、画图等):12个任务。
任务难度:任务按难度分为三个级别,易(Easy)、中(Medium)、难(Hard),任务完成步骤从5步到20步不等,大部分任务难度为中等。
任务分布概览
研究方法
Agent行为建模
Agent根据系统的当前观察状态生成可执行动作,包括鼠标点击、键盘输入、窗口管理等操作。具体操作通过 pyautogui 或封装的 Computer 类来实现,该类支持更精确的窗口和元素操作。
为了处理复杂的多模态环境,智能体使用了Set-of-Marks (SoM) 标记系统,该系统从屏幕快照、DOM树、UIA树、OCR等多种方式提取界面信息,帮助智能体定位可交互元素,并辅助决策。
Set-of-Marks标记系统的例子。图中不同颜色分别标注了OCR(蓝色)、图标检测(绿色)和图像检测(红色)的结果
奖励函数与任务评估
每个任务的评估基于系统状态的变化,任务结束时,通过预定义的脚本对比执行前后的状态,来判断任务是否完成。如果智能体达成了任务目标,则获得奖励。
奖励分为两种:二元奖励(任务成功或失败)和连续奖励(根据智能体输出与预期目标的相似度给出部分奖励),使得系统可以对复杂任务的部分完成给予评估。
跨数据操作、Web导航、应用设置等任务的评估脚本示例
Navi智能体开发与测试
开发了名为Navi的多模态智能体,以探索和评估其在WindowsAgentArena中的表现。Navi使用链式推理,根据屏幕状态、任务指令、动作历史等生成合理的下一个动作。
为了增强Navi的多模态处理能力,系统提供了几种屏幕信息处理方法,包括UIA树解析、OCR识别、图标和图像检测等。不同配置的Navi智能体分别使用了开源和专有的视觉模型来生成SoM标注。
Agent处理成功的案例
系统并行化与基准测试架构
该平台采用了可扩展的架构,基于Azure云计算的并行化技术,能够快速运行多个智能体实例来完成任务评估。这种方法显著减少了评估时间,从传统的几小时或几天缩短至20分钟左右。
通过在Docker容器中运行Windows 11虚拟机,智能体和任务管理器之间可以通过API高效通信,完成任务分配、执行和评估。任务的执行和评估结果被记录并保存在云端。
本地部署和云端部署的比较
研究结果
基准测试平台的成功构建
研究成功构建了WindowsAgentArena,一个可复现且可扩展的多模态智能体评估平台,专门针对Windows操作系统环境。该平台通过并行化技术大幅缩短了任务评估时间,能够在Azure云端实现快速任务执行和测试。
平台设计了154个多步骤任务,涵盖文档编辑、网页浏览、编程等多种场景,模拟真实用户操作,能够全面测试智能体的规划、工具使用和界面理解能力。
Navi智能体的性能表现及分析
Navi智能体在WindowsAgentArena上测试,取得了19.5%的任务成功率,展示了初步的多模态任务执行能力,尽管相较于人类用户(74.5%)的表现仍有较大提升空间。
Navi在任务中表现出了对文本主导界面的较强处理能力,但在处理依赖图形界面或快捷键的任务时,仍存在较大挑战,分析结果为未来优化智能体提供了方向。
一句话总结:本文构建了WindowsAgentArena,一个针对Windows操作系统的多模态智能体评估平台,并通过Navi智能体的测试,展示了该平台在推动智能体研究和开发中的潜力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。