AI代刷崩坏和炉石！通过Claude操作电脑，彻底解放双手！

最新推荐文章于 2025-03-13 13:24:12 发布

AI大模型入门

最新推荐文章于 2025-03-13 13:24:12 发布

阅读量1.3k

点赞数 29

文章标签：人工智能数据库语言模型大模型 AI

本文链接：https://blog.csdn.net/m0_70486148/article/details/144367532

版权

“The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use”

玩游戏刷副本的时候是不是感觉很肝很累很无聊，现在一个成熟的AI已经学会自己玩游戏了！

近日来自新加坡国立大学的研究团队精心设计了一系列PC操作任务，来测试大模型在PC操作方面的能力。测试发现，成熟的 AI 已经学会自己打工了。

Claude 不仅能识别画面上的按钮，还能理解每个按钮的含义和功能，比如哪里是开启副本、哪里是开始战斗，再判断何时应该按下对应的按钮，执行相应的操作。就是 Claude 还没学会换阵容，配队有点稀碎。

以后养号不必找代练了，只要熟练掌握AI使用技巧，转包给 Claude 就行了。它不会悄悄花掉星轨通票，更不会手抖把保底都抽没了。

论文地址：https://arxiv.org/pdf/2411.10323

Github地址：https://github.com/showlab/computer_use_ootb

摘要

Claude 3.5 Computer Use是首个提供图形用户界面（GUI）操作的前沿AI模型，目前处于公开测试阶段。本案例研究设计了一系列任务，展示了Claude 3.5在语言到桌面操作的端到端能力。提供了一个API基础的GUI自动化模型的Agent框架，便于实施。研究分析了Claude 3.5的能力和局限性，并提出了未来改进的规划、行动和评估问题。所有代码均已开源

简介

自动化桌面任务的研究日益受到关注，旨在提升用户在各种应用环境中的生产力和可及性。Claude 3.5 Computer Use是首个提供计算机使用的前沿AI模型，支持通过API调用进行端到端的GUI自动化。研究评估API基础GUI自动化模型的性能，重点关注三个维度：规划、行动和环境适应能力。

本研究是对Claude 3.5 Computer Use的首次全面案例研究，涵盖网页搜索、专业软件和游戏等多个领域。提供了一个跨平台的“Computer Use OOTB”框架，简化API基础GUI自动化模型的部署和基准测试。进行了广泛的人类评估，分析了新模型的进展和局限性。

相关工作

大型视觉语言模型（LVLMs）结合视觉编码器与语言模型（LLMs），用于处理图像和文本，提升视觉语言任务的能力。LVLMs在物体生成响应时提供边界框，增强了对视觉内容的理解。

GUI Agents利用LLMs实现与操作系统的交互，面临商业软件的闭源限制。GUI Agent通过模拟人类的鼠标和键盘操作与数字设备互动，提升了任务执行能力。研究者致力于开发能够理解人类意图并预测操作的系统，但数据的稀缺性限制了进展。SearchAgent引入推理搜索算法，增强了在交互式网络环境中的多步推理和规划能力。

Claude电脑操作能力

本文对Claude的计算机使用进行深入分析，探讨模型设计。提供可供社区复制的框架。分析将从多个角度出发，强调模型及其工具。

模型设计

Claude Computer Use的主要任务是根据用户的自然语言指令X instr，在桌面上完成一系列操作。该过程包括多个步骤：观察GUI状态I t，选择下一步动作，执行动作，反思结果以提升未来规划。

系统Prompt

观察状态

Claude Computer Use通过实时截图获取环境视觉信息，避免依赖元数据或HTML。该模型能够模仿人类桌面操作，适应动态GUI环境。采用“仅视觉”方法，实现通用计算机使用，特别适用于闭源软件。

推理模式

Claude Computer Use采用推理-行动范式，在动态GUI环境中生成可靠的行动。通过观察环境后再决定行动，确保与当前GUI状态相符。能有效识别用户需求满足情况，避免不必要的步骤。采用选择性观察策略，仅在必要时监控GUI状态，降低成本，加快过程。

工具使用

计算机工具。用于操作鼠标和键盘与桌面GUI交互，支持截图。需等待应用加载，点击时确保光标在元素中心。

编辑工具。支持查看、创建和编辑文件，状态在命令调用间持久。文件路径存在时无法创建，长输出会被截断。可撤销最后一次编辑。

Bash工具。使用Bash运行命令。

GUI操作空间

Claude Computer Use的GUI动作空间包括所有鼠标和键盘的原始操作。动作语法为action_type(arguments)，示例包括：

鼠标移动：mouse_move(100, 150)
鼠标点击：left_click()
输入文本：type(‘Hello, world!’)
热键组合：key(‘ctrl + c’)
拖放操作：left_click_drag(100, 200, duration=2)
截图：screenshot()

历史可视化背景维护

Claude Computer Use通过历史截图辅助决策，保留完整的视觉信息。当前动作Y_{actn}^{{t}由参数化模型Θ_{mad}e生成，利用当前实例X_{inst}、当前和历史截图I}{t}、I_{h}^{{2}及时间t_{m+y}。历史信息I}{t-1}与I_{hi}^{t-2t}结合，增强模型在事件展开过程中的决策能力。

Agent实现

Anthropic的演示代码库仅支持Docker Linux环境，无法满足真实环境中的GUI自动化基准测试需求。开发了名为“Computer Use Out-of-the-Box”的跨平台、无Docker的GUI Agent框架。该框架支持在Windows和macOS上本地部署GUI Agent。通过使用PyAutoGUI，确保操作在两个操作系统上兼容。允许通过API模型通过特定操作命令进行软件的通用远程控制。

电脑操作能力评估

设置

评估在Windows和macOS上进行，分辨率分别为(1366, 768)和(1344, 756)。人工评估监控计算机使用过程，判断任务完成状态为“成功”或“失败”。案例研究涵盖20个任务，涉及12个软件或网站，分为网络搜索、工作流程、办公生产力和视频游戏三个领域。

案例研究：电子游戏

视频游戏的GUI自动化模型面临挑战，需强大的规划能力和视觉基础能力。游戏探索复杂，信息不易识别，要求模型具备高级规划和适应能力。不同游戏的视觉风格和界面元素差异大，模型需在无文本标签的情况下推断按钮功能。

案例研究选择《炉石传说》和《崩坏：星穹铁道》评估模型能力。《炉石传说》强调战略卡组构建和战术决策，测试模型的多步行动规划和资源管理。《崩坏：星穹铁道》侧重角色扮演，具有丰富图形和动态界面，挑战模型的视觉基础能力。这两款游戏展示了模型在复杂、视觉丰富的游戏环境中的适应性。

炉石传说：创建并重命名一个新的战斗套牌

模型创建新卡组，选择法师职业和“核心法师”预设卡组。按步骤点击“新卡组”按钮，选择法师，确认选择，选择预设卡组并创建。点击卡组标题进行重命名，输入“Sonnet’s New Deck”，确认并完成重命名。模型成功导航用户界面，完成多步骤任务，确认卡组可用性。展示模型在复杂游戏界面中的适应能力。

炉石传说：英雄力量

模型在《炉石传说》中识别到自己是法师，拥有3点法力，决定使用2法力的英雄技能消灭敌方1血的随从，展现出有效的决策能力。尽管游戏界面复杂，模型成功找到英雄技能图标并评估敌方随从的健康值，做出合理的攻击选择。使用英雄技能后，模型确认局势改善，决定结束回合，展示了对游戏状态的分析能力和资源利用的策略决策。

崩坏：自动抽卡

模型规划了在《崩坏：星穹铁道》中进行10次抽卡的步骤，包括访问抽卡菜单、选择“忍者之眼”选项并启动抽卡序列。模型在抽卡过程中通过点击右上角的跳过箭头来跳过动画，以加快流程。抽卡结束后，模型在总结页面点击“X”退出，确认抽卡结果并确保流程完成。模型展示了在不熟悉的游戏环境中准确执行多步骤任务的能力，强调了用户指令的重要性，并有效提升玩家体验。

崩坏：每日任务清理自动化

模型在《崩坏：星穹铁道》中执行日常任务的规划步骤，包括访问星际指南、选择任务、调整尝试次数、启动挑战、激活自动战斗模式及退出。用户请求进行10次抽卡，步骤包括按下Escape键打开菜单、点击抽卡、选择“忍者之眼”池、执行10次抽卡、跳过动画并完成抽卡。模型逐步执行操作，确认每一步的界面状态，并在抽卡完成后询问用户是否查看角色或进行另一次抽卡。

案例研究：网络搜索

Web是一个动态的互动环境，包含互联网页面、自然文本、图像和互动元素。网页的动态性要求模型具备强大的规划能力，不能仅依赖预定义路径。需要良好的基础能力，以准确识别和互动网页中的元素。模型应能根据执行状态决定前进或后退，调整计划。后续案例研究评估模型在复杂网页搜索任务中的表现，重点在规划、基础和适应能力。通过实际网站的互动，展示模型处理动态内容和多步骤计划的能力，以及应对意外界面行为的策略调整。

在亚马逊上找到100美元以下的ANC耳机

规划过程。模型从亚马逊主页开始，提取用户指令中的查询，计划搜索目标耳机并根据预算过滤结果。

行动过程。模型定位搜索框中心，输入查询后点击搜索图标开始搜索。

反馈检查。点击“加入购物车”后，模型截图确认是否成功添加商品，以决定是否重试或终止执行。

浏览苹果官方网站显示与配件

模型通过观察苹果官网的初始状态进行规划，选择使用搜索功能以提高效率，避免繁琐的菜单导航。当Apple Care窗口弹出时，模型根据用户指令进行进一步规划，决定将三年AppleCare+添加到购物车。模型与文本、按钮和超链接图像等不同元素互动，展示了其强大的视觉信息处理能力。模型在关键步骤后进行反思，确认成功添加了所需配件，并进行最终检查，列出所有已添加的配件。

福克斯体育订阅（失败）

模型在Fox Sports网站上寻找Formula 1，初步计划通过点击“MORE”按钮查看更多体育类别。在未找到Formula 1后，模型调整策略，点击“ACCOUNT”菜单，期望管理更多关注的体育项目。模型的反馈显示其在“MORE”标签下未找到目标，但仍尝试通过不同路径实现用户目标。错误在于模型未继续在“MORE”中滚动查找，而是错误地转向“ACCOUNT”标签，导致登录要求，增加了用户复杂性。强调了上下文感知导航的重要性，建议模型在未找到项目时优先滚动查找，提升未来版本的视觉搜索能力。

案例研究：工作流

工作流任务涉及多应用程序交互和多目标用户查询，需在不同软件平台间无缝管理数据。用户常需协调浏览器、生产力工具和专业应用以完成复杂目标。任务复杂性在于需要强大的规划能力，以协调不同界面操作。模型需具备强大的基础能力，理解并与不同用户界面元素互动。应对意外行为或错误时，模型应能动态调整计划。通过案例研究评估模型在复杂工作流任务中的表现，展示其能力并识别改进空间。

查找最新和本地流行音乐并添加到播放列表

模型规划在Apple Music中定位流行音乐并将特定歌曲添加到“Sonnet’s Selection”播放列表的步骤。模型在每个步骤中进行验证，确保操作符合用户指令，通过截图确认位置，最终完成任务并反馈。在亚马逊搜索产品并记录价格的计划。

在亚马逊上搜索产品并在Excel中记录价格

模型在亚马逊搜索框中输入“27 inch 165hz gaming monitor”并回车，生成搜索结果。打开Excel，确认加载完成后，设置表头“Product”和“Price”。在A2单元格输入第一个产品“AOC 27G15 27 inch Gaming Monitor, Full HD 1920x1080, 165hz 1ms”，在B2输入价格“$129.99”。在A3输入第二个产品“Acer Nitro 27’ Full HD 1920 x 1080 1500R Curve PC Gaming Monitor”，在B3输入价格“$129.99”。模型在打开Excel后截图确认应用已准备好，确保数据输入准确。数据输入后再次截图验证产品信息和表头的正确性，增强任务可靠性。

导出和下载联机文档以在本地打开

模型计划从Google Spreadsheet下载文件并在Excel中打开，展示跨应用程序的工作流程。模型在Firefox中确认下载通知并打开文件，展示其在浏览器和桌面环境中的操作能力。模型在步骤2后截图确认菜单选项，步骤4截图确认下载完成，步骤5确认Excel打开文件并准备启用编辑。模型的自我评估显示其在云端与本地环境之间的无缝过渡能力。

从应用程序商店安装应用程序并报告存储使用情况

模型计划在App Store中搜索“GoodNotes”，查看应用详情以确认大小，然后进行安装。模型确认“GoodNotes”应用大小为1.39 GB，并截图验证。安装需用户认证，模型记录每个步骤并确认安装序列已启动，等待用户干预。

案例研究：办公生产力软件

办公软件在现代工作和教育环境中至关重要，涉及文档撰写、数据分析和演示制作等任务。自动化办公软件中的任务可提高效率、减少重复工作和人为错误。办公软件通常缺乏程序化接口，需通过GUI自动化模型直接与视觉界面交互。该模型需具备强大的视觉识别能力，以准确定位和操作复杂的界面元素。精确执行操作至关重要，任何小错误都可能导致不正确的结果。模型需适应不同软件版本和用户自定义的界面布局。通过案例研究，评估模型在办公软件中自动化任务的能力，分析其对人类生产力的支持潜力。

转发指定邮件并抄送给其他收件人

模型在Outlook中规划转发邮件的步骤，包括定位最新的Anthropic邮件、打开邮件、点击转发按钮、输入主收件人和抄送地址。模型确认打开的邮件可见，确保处理正确的邮件。每个操作后，模型截图验证输入是否正确。最终确认所有步骤成功完成，展示了模型在专业邮件管理中的能力和自我监控能力。

将文档布局更改为横向A3大小

规划。模型在Microsoft Word中调整文档布局，识别必要步骤：打开“布局”选项卡，选择“大小”更改纸张为A3，设置方向为“横向”。

行动。模型执行步骤：点击“布局”选项卡，选择“大小”并选择A3；点击“方向”下拉菜单，选择“横向”。

反馈。模型确认文档已成功调整为指定布局，确保格式符合用户要求。

文档分栏

模型的规划过程。访问“布局”选项卡，选择“列”中的“两列”设置，重新格式化文档。

行动步骤。点击“布局”选项卡，找到并点击“列”按钮，选择“两列”选项。

确认结果。文档成功重组为两列，确认布局更改已按用户要求完成。

更新简历模板上的姓名和电话号码（失败）

模型计划更新简历中的姓名和电话号码，目标是将“Janna Gardner”替换为“Sonnet”，并将电话号码更新为“7355608”。在执行过程中，模型通过双击选择“Janna Gardner”并输入“Sonnet”，但只替换了姓，名“Janna”未变。更新电话号码时，模型仅选择了部分数字，导致信息更新不完整。模型错误地确认任务成功，未能识别部分更新的问题，显示出文本选择准确性不足和反馈验证的局限性。

渐变填充背景

模型规划在PowerPoint中为新幻灯片应用渐变填充背景的步骤，包括打开PowerPoint、创建新幻灯片和访问背景格式选项。模型右键点击幻灯片，但因点击了标题文本框未能显示“格式背景”选项。模型在重新规划，通过访问设计选项卡成功找到“格式背景”按钮。模型选择“渐变填充”并成功应用于幻灯片。模型在未找到所需面板后，迅速调整计划，展示了其适应能力。

修改幻灯片标题并绘制三角形

模型计划在PowerPoint中添加标题“Triangle”和一个三角形，分步骤进行。第一步是点击标题框并输入“Triangle”；接着在“Shapes”菜单中选择三角形并绘制。模型确认标题和三角形成功添加，确保视觉修改完成。该示例展示了模型对PowerPoint多样功能的有效控制。

插入编号符号（失败）

模型在PowerPoint中计划逐步添加编号符号，意识到工具的可用性。第一步点击第二张幻灯片，尝试应用编号，但错误地使用了项目符号。识别错误后，模型调整方法，尝试切换到编号格式。在选择文本时遇到困难，未能准确选择所有项目。最终未能有效评估结果，可能导致误导性观察。模型在选择精度和功能按钮定位上存在局限，需改进选择控制和最终验证步骤。

查找和替换工作表

模型确认Excel已打开，计划使用“查找和替换”对话框将“ $” 替换为 “ SG D ” 。通过快捷键 “ Ct r l + H ” 打开对话框，输入查找文本 “$ ”和替换文本“SGD”。点击“全部替换”按钮，成功替换190个实例。最后确认Excel反馈，确保操作准确完成。

在单元格上插入求和方程

规划阶段。模型识别需要对“ACTUAL”列求和，并将结果插入“Total budget”行的空单元格，明确求和范围。

行动步骤。模型点击“Total budget”行的空单元格，输入SUM公式，选择C6到C15的范围并按“Enter”完成。

反馈问题。模型解释SUM函数，但未验证所选范围的准确性，缺乏最终确认。

错误发生。模型错误选择C6到C15而非正确的D6到D16，且遗漏“Other Expenses”行，导致计算不完整。

限制展示。模型在范围选择和数学推理上存在局限，需改进自我反馈和选择准确性以满足Excel数据处理需求。

讨论

错误分类

评估中展示了模型失败的代表性案例，揭示了任务理解和执行的局限性。失败原因被分类为三种错误：

规划错误（PE）：模型生成错误计划，通常因误解任务指令或当前状态。
行动错误（AE）：计划正确但执行错误，常因界面理解或空间识别问题。
评估错误（CE）：模型错误评估自身行为或状态，导致反馈不准确。

面向未来的GUI Agent

未来基准测试需更动态、互动的环境，考虑软件版本和屏幕分辨率的多样性，以反映真实世界的复杂性。模型在任务完成判断上存在误判，需改进自我评估机制，可能需要引入严格的内部评估模块。当前模型未能完全模拟人类计算机使用的细微差别，如页面滚动和浏览，训练数据的局限性导致信息碎片化和不完整。

总结

本研究展示了API基础的GUI Agent Claude 3.5在多种桌面环境中的初步案例研究。重点评估了其在网页导航、工作流程、生产力软件和视频游戏中的表现。研究指出了当前模型在规划、行动执行和反馈方面的潜力与局限性。提供了“Computer Use Out-of-the-Box”框架，旨在缩小可访问性差距，便于在实际场景中部署和基准测试这些模型。希望该框架和评估方法能为GUI Agent研究的进一步发展奠定基础，推动更复杂和可靠的自动化计算机使用模型的进步。