Daily Papers | 微软推出多模态操作系统Agent

最新推荐文章于 2024-11-12 20:25:42 发布

小天才学习机打游戏

最新推荐文章于 2024-11-12 20:25:42 发布

阅读量1k

点赞数 29

文章标签：架构人工智能大数据机器学习 ocr

本文链接：https://blog.csdn.net/m0_59164520/article/details/142794899

版权

论文标题：

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale [2024.09.12]

《Windows Agent Arena：大规模评估多模式 OS 代理》

论文地址：

arxiv.org/abs/2409.08264

论文创新点：

• WindowsAgentArena允许智能体在真实的Windows操作系统中自由操作，解决了此前测试平台的环境和模态限制问题。

• 该研究开发了Navi智能体，验证其在该平台中的表现，并发现智能体的成功率为19.5%，相比无助力的人的74.5%仍有较大提升空间。

• 该论文开源了所有代码和基准任务，旨在推动多模态智能体在Windows环境中的开发与评估。

导读

WindowsAgentArena是一个针对多模态操作系统（OS）智能体的测试平台，专门用于Windows环境。随着大语言模型（LLMs）在任务规划与推理方面的能力不断提升，测试这些模型作为计算机智能体在现实世界中的表现变得至关重要。

WindowsAgentArena通过并行化任务执行，显著缩短了复杂任务评估的时间。此外，本文还引入了名为Navi的智能体，分析其在Windows任务中的表现，并为未来研究提供了深入的见解。

WindowsAgentArena基准测试套件的架构

研究概述

该文介绍了WindowsAgentArena，这是一个用于评估多模态操作系统（OS）智能体的全新基准测试平台，专门针对Windows操作系统环境。当前的智能体在诸如网页导航、编程和问答等特定领域已经展示了强大的能力，但在复杂的多模态环境下（如Windows操作系统），智能体的表现评估依然存在困难。为了解决这些挑战，WindowsAgentArena提供了一个可扩展且可复现的测试环境，允许智能体在真实的Windows操作系统中执行跨应用、多步骤的任务。

研究开发了Navi这一多模态智能体，并在WindowsAgentArena上进行了广泛的测试。Navi展示了在Windows环境下的任务执行能力，其成功率达到了19.5%。此外，Navi还在另一项基准测试Mind2Web中取得了较好的表现。

研究数据

平台设计了154个多步骤任务，涵盖多种应用和任务领域，包括文档编辑、网络浏览、系统设置、代码编辑、媒体播放等。这些任务代表了Windows用户的常见工作负载。任务分布在11个不同的程序/应用中，具体数据如下：

• 文档编辑（Office类任务）：43个任务。

• 网络浏览：30个任务。

• 系统任务（文件管理、设置）：24个任务。

• 编程相关：24个任务。

• 媒体播放与视频：21个任务。

• Windows实用工具（如记事本、时钟、画图等）：12个任务。

任务难度：任务按难度分为三个级别，易（Easy）、中（Medium）、难（Hard），任务完成步骤从5步到20步不等，大部分任务难度为中等。

任务分布概览

研究方法

Agent行为建模

Agent根据系统的当前观察状态生成可执行动作，包括鼠标点击、键盘输入、窗口管理等操作。具体操作通过 pyautogui 或封装的 Computer 类来实现，该类支持更精确的窗口和元素操作。

为了处理复杂的多模态环境，智能体使用了Set-of-Marks (SoM) 标记系统，该系统从屏幕快照、DOM树、UIA树、OCR等多种方式提取界面信息，帮助智能体定位可交互元素，并辅助决策。

Set-of-Marks标记系统的例子。图中不同颜色分别标注了OCR（蓝色）、图标检测（绿色）和图像检测（红色）的结果

奖励函数与任务评估

每个任务的评估基于系统状态的变化，任务结束时，通过预定义的脚本对比执行前后的状态，来判断任务是否完成。如果智能体达成了任务目标，则获得奖励。

奖励分为两种：二元奖励（任务成功或失败）和连续奖励（根据智能体输出与预期目标的相似度给出部分奖励），使得系统可以对复杂任务的部分完成给予评估。

跨数据操作、Web导航、应用设置等任务的评估脚本示例

Navi智能体开发与测试

开发了名为Navi的多模态智能体，以探索和评估其在WindowsAgentArena中的表现。Navi使用链式推理，根据屏幕状态、任务指令、动作历史等生成合理的下一个动作。

为了增强Navi的多模态处理能力，系统提供了几种屏幕信息处理方法，包括UIA树解析、OCR识别、图标和图像检测等。不同配置的Navi智能体分别使用了开源和专有的视觉模型来生成SoM标注。

Agent处理成功的案例

系统并行化与基准测试架构

该平台采用了可扩展的架构，基于Azure云计算的并行化技术，能够快速运行多个智能体实例来完成任务评估。这种方法显著减少了评估时间，从传统的几小时或几天缩短至20分钟左右。

通过在Docker容器中运行Windows 11虚拟机，智能体和任务管理器之间可以通过API高效通信，完成任务分配、执行和评估。任务的执行和评估结果被记录并保存在云端。

本地部署和云端部署的比较

研究结果

基准测试平台的成功构建

研究成功构建了WindowsAgentArena，一个可复现且可扩展的多模态智能体评估平台，专门针对Windows操作系统环境。该平台通过并行化技术大幅缩短了任务评估时间，能够在Azure云端实现快速任务执行和测试。

平台设计了154个多步骤任务，涵盖文档编辑、网页浏览、编程等多种场景，模拟真实用户操作，能够全面测试智能体的规划、工具使用和界面理解能力。

Navi智能体的性能表现及分析

Navi智能体在WindowsAgentArena上测试，取得了19.5%的任务成功率，展示了初步的多模态任务执行能力，尽管相较于人类用户（74.5%）的表现仍有较大提升空间。

Navi在任务中表现出了对文本主导界面的较强处理能力，但在处理依赖图形界面或快捷键的任务时，仍存在较大挑战，分析结果为未来优化智能体提供了方向。

一句话总结：本文构建了WindowsAgentArena，一个针对Windows操作系统的多模态智能体评估平台，并通过Navi智能体的测试，展示了该平台在推动智能体研究和开发中的潜力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述