“The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use”
玩游戏刷副本的时候是不是感觉很肝很累很无聊,现在一个成熟的AI已经学会自己玩游戏了!
近日来自新加坡国立大学的研究团队精心设计了一系列PC操作任务,来测试大模型在PC操作方面的能力。测试发现,成熟的 AI 已经学会自己打工了。
Claude 不仅能识别画面上的按钮,还能理解每个按钮的含义和功能,比如哪里是开启副本、哪里是开始战斗,再判断何时应该按下对应的按钮,执行相应的操作。就是 Claude 还没学会换阵容,配队有点稀碎。
以后养号不必找代练了,只要熟练掌握AI使用技巧,转包给 Claude 就行了。它不会悄悄花掉星轨通票,更不会手抖把保底都抽没了。
论文地址:https://arxiv.org/pdf/2411.10323
Github地址:https://github.com/showlab/computer_use_ootb
摘要
Claude 3.5 Computer Use是首个提供图形用户界面(GUI)操作的前沿AI模型,目前处于公开测试阶段。本案例研究设计了一系列任务,展示了Claude 3.5在语言到桌面操作的端到端能力。提供了一个API基础的GUI自动化模型的Agent框架,便于实施。研究分析了Claude 3.5的能力和局限性,并提出了未来改进的规划、行动和评估问题。所有代码均已开源
简介
自动化桌面任务的研究日益受到关注,旨在提升用户在各种应用环境中的生产力和可及性。Claude 3.5 Computer Use是首个提供计算机使用的前沿AI模型,支持通过API调用进行端到端的GUI自动化。研究评估API基础GUI自动化模型的性能,重点关注三个维度:规划、行动和环境适应能力。
本研究是对Claude 3.5 Computer Use的首次全面案例研究,涵盖网页搜索、专业软件和游戏等多个领域。提供了一个跨平台的“Computer Use OOTB”框架,简化API基础GUI自动化模型的部署和基准测试。进行了广泛的人类评估,分析了新模型的进展和局限性。
相关工作
大型视觉语言模型(LVLMs)结合视觉编码器与语言模型(LLMs),用于处理图像和文本,提升视觉语言任务的能力。LVLMs在物体生成响应时提供边界框,增强了对视觉内容的理解。
GUI Agents利用LLMs实现与操作系统的交互,面临商业软件的闭源限制。GUI Agent通过模拟人类的鼠标和键盘操作与数字设备互动,提升了任务执行能力。研究者致力于开发能够理解人类意图并预测操作的系统,但数据的稀缺性限制了进展。SearchAgent引入推理搜索算法,增强了在交互式网络环境中的多步推理和规划能力。
Claude电脑操作能力
本文对Claude的计算机使用进行深入分析,探讨模型设计。提供可供社区复制的框架。分析将从多个角度出发,强调模型及其工具。
模型设计
Claude Computer Use的主要任务是根据用户的自然语言指令X instr,在桌面上完成一系列操作。该过程包括多个步骤:观察GUI状态I t,选择下一步动作,执行动作,反思结果以提升未来规划。
系统Prompt
观察状态
Claude Computer Use通过实时截图获取环境视觉信息,避免依赖元数据或HTML。该模型能够模仿人类桌面操作,适应动态GUI环境。采用“仅视觉”方法,实现通用计算机使用,特别适用于闭源软件。
推理模式
Claude Computer Use采用推理-行动范式,在动态GUI环境中生成可靠的行动。通过观察环境后再决定行动,确保与当前GUI状态相符。能有效识别用户需求满足情况,避免不必要的步骤。采用选择性观察策略,仅在必要时监控GUI状态,降低成本,加快过程。
工具使用
计算机工具。用于操作鼠标和键盘与桌面GUI交互,支持截图。需等待应用加载,点击时确保光标在元素中心。
编辑工具。支持查看、创建和编辑文件,状态在命令调用间持久。文件路径存在时无法创建,长输出会被截断。可撤销最后一次编辑。
Bash工具。使用Bash运行命令。
GUI操作空间
Claude Computer Use的GUI动作空间包括所有鼠标和键盘的原始操作。动作语法为action_type(arguments),示例包括:
-
鼠标移动:mouse_move(100, 150)
-
鼠标点击:left_click()
-
输入文本:type(‘Hello, world!’)
-
热键组合:key(‘ctrl + c’)
-
拖放操作:left_click_drag(100, 200, duration=2)
-
截图:screenshot()
历史可视化背景维护
Claude Computer Use通过历史截图辅助决策,保留完整的视觉信息。当前动作Y_{actn}{t}由参数化模型Θ_{mad}e生成,利用当前实例X_{inst}、当前和历史截图I{t}、I_{h}{2}及时间t_{m+y}。历史信息I{t-1}与I_{hi}^{t-2t}结合,增强模型在事件展开过程中的决策能力。
Agent实现
Anthropic的演示代码库仅支持Docker Linux环境,无法满足真实环境中的GUI自动化基准测试需求。开发了名为“Computer Use Out-of-the-Box”的跨平台、无Docker的GUI Agent框架。该框架支持在Windows和macOS上本地部署GUI Agent。通过使用PyAutoGUI,确保操作在两个操作系统上兼容。允许通过API模型通过特定操作命令进行软件的通用远程控制。
电脑操作能力评估
设置
评估在Windows和macOS上进行,分辨率分别为(1366, 768)和(1344, 756)。人工评估监控计算机使用过程,判断任务完成状态为“成功”或“失败”。案例研究涵盖20个任务,涉及12个软件或网站,分为网络搜索、工作流程、办公生产力和视频游戏三个领域。
案例研究:电子游戏
视频游戏的GUI自动化模型面临挑战,需强大的规划能力和视觉基础能力。游戏探索复杂,信息不易识别,要求模型具备高级规划和适应能力。不同游戏的视觉风格和界面元素差异大,模型需在无文本标签的情况下推断按钮功能。
案例研究选择《炉石传说》和《崩坏:星穹铁道》评估模型能力。《炉石传说》强调战略卡组构建和战术决策,测试模型的多步行动规划和资源管理。《崩坏:星穹铁道》侧重角色扮演,具有丰富图形和动态界面,挑战模型的视觉基础能力。这两款游戏展示了模型在复杂、视觉丰富的游戏环境中的适应性。
炉石传说:创建并重命名一个新的战斗套牌
模型创建新卡组,选择法师职业和“核心法师”预设卡组。按步骤点击“新卡组”按钮,选择法师,确认选择,选择预设卡组并创建。点击卡组标题进行重命名,输入“Sonnet’s New Deck”,确认并完成重命名。模型成功导航用户界面,完成多步骤任务,确认卡组可用性。展示模型在复杂游戏界面中的适应能力。
炉石传说:英雄力量
模型在《炉石传说》中识别到自己是法师,拥有3点法力,决定使用2法力的英雄技能消灭敌方1血的随从,展现出有效的决策能力。尽管游戏界面复杂,模型成功找到英雄技能图标并评估敌方随从的健康值,做出合理的攻击选择。使用英雄技能后,模型确认局势改善,决定结束回合,展示了对游戏状态的分析能力和资源利用的策略决策。
崩坏:自动抽卡
模型规划了在《崩坏:星穹铁道》中进行10次抽卡的步骤,包括访问抽卡菜单、选择“忍者之眼”选项并启动抽卡序列。模型在抽卡过程中通过点击右上角的跳过箭头来跳过动画,以加快流程。抽卡结束后,模型在总结页面点击“X”退出,确认抽卡结果并确保流程完成。模型展示了在不熟悉的游戏环境中准确执行多步骤任务的能力,强调了用户指令的重要性,并有效提升玩家体验。
崩坏:每日任务清理自动化
模型在《崩坏:星穹铁道》中执行日常任务的规划步骤,包括访问星际指南、选择任务、调整尝试次数、启动挑战、激活自动战斗模式及退出。用户请求进行10次抽卡,步骤包括按下Escape键打开菜单、点击抽卡、选择“忍者之眼”池、执行10次抽卡、跳过动画并完成抽卡。模型逐步执行操作,确认每一步的界面状态,并在抽卡完成后询问用户是否查看角色或进行另一次抽卡。
案例研究:网络搜索
Web是一个动态的互动环境,包含互联网页面、自然文本、图像和互动元素。网页的动态性要求模型具备强大的规划能力,不能仅依赖预定义路径。需要良好的基础能力,以准确识别和互动网页中的元素。模型应能根据执行状态决定前进或后退,调整计划。后续案例研究评估模型在复杂网页搜索任务中的表现,重点在规划、基础和适应能力。通过实际网站的互动,展示模型处理动态内容和多步骤计划的能力,以及应对意外界面行为的策略调整。
在亚马逊上找到100美元以下的ANC耳机
规划过程。模型从亚马逊主页开始,提取用户指令中的查询,计划搜索目标耳机并根据预算过滤结果。
行动过程。模型定位搜索框中心,输入查询后点击搜索图标开始搜索。
反馈检查。点击“加入购物车”后,模型截图确认是否成功添加商品,以决定是否重试或终止执行。
浏览苹果官方网站显示与配件
模型通过观察苹果官网的初始状态进行规划,选择使用搜索功能以提高效率,避免繁琐的菜单导航。当Apple Care窗口弹出时,模型根据用户指令进行进一步规划,决定将三年AppleCare+添加到购物车。模型与文本、按钮和超链接图像等不同元素互动,展示了其强大的视觉信息处理能力。模型在关键步骤后进行反思,确认成功添加了所需配件,并进行最终检查,列出所有已添加的配件。
福克斯体育订阅(失败)
模型在Fox Sports网站上寻找Formula 1,初步计划通过点击“MORE”按钮查看更多体育类别。在未找到Formula 1后,模型调整策略,点击“ACCOUNT”菜单,期望管理更多关注的体育项目。模型的反馈显示其在“MORE”标签下未找到目标,但仍尝试通过不同路径实现用户目标。错误在于模型未继续在“MORE”中滚动查找,而是错误地转向“ACCOUNT”标签,导致登录要求,增加了用户复杂性。强调了上下文感知导航的重要性,建议模型在未找到项目时优先滚动查找,提升未来版本的视觉搜索能力。
案例研究:工作流
工作流任务涉及多应用程序交互和多目标用户查询,需在不同软件平台间无缝管理数据。用户常需协调浏览器、生产力工具和专业应用以完成复杂目标。任务复杂性在于需要强大的规划能力,以协调不同界面操作。模型需具备强大的基础能力,理解并与不同用户界面元素互动。应对意外行为或错误时,模型应能动态调整计划。通过案例研究评估模型在复杂工作流任务中的表现,展示其能力并识别改进空间。
查找最新和本地流行音乐并添加到播放列表
模型规划在Apple Music中定位流行音乐并将特定歌曲添加到“Sonnet’s Selection”播放列表的步骤。模型在每个步骤中进行验证,确保操作符合用户指令,通过截图确认位置,最终完成任务并反馈。在亚马逊搜索产品并记录价格的计划。
在亚马逊上搜索产品并在Excel中记录价格
模型在亚马逊搜索框中输入“27 inch 165hz gaming monitor”并回车,生成搜索结果。打开Excel,确认加载完成后,设置表头“Product”和“Price”。在A2单元格输入第一个产品“AOC 27G15 27 inch Gaming Monitor, Full HD 1920x1080, 165hz 1ms”,在B2输入价格“$129.99”。在A3输入第二个产品“Acer Nitro 27’ Full HD 1920 x 1080 1500R Curve PC Gaming Monitor”,在B3输入价格“$129.99”。模型在打开Excel后截图确认应用已准备好,确保数据输入准确。数据输入后再次截图验证产品信息和表头的正确性,增强任务可靠性。
导出和下载联机文档以在本地打开
模型计划从Google Spreadsheet下载文件并在Excel中打开,展示跨应用程序的工作流程。模型在Firefox中确认下载通知并打开文件,展示其在浏览器和桌面环境中的操作能力。模型在步骤2后截图确认菜单选项,步骤4截图确认下载完成,步骤5确认Excel打开文件并准备启用编辑。模型的自我评估显示其在云端与本地环境之间的无缝过渡能力。
从应用程序商店安装应用程序并报告存储使用情况
模型计划在App Store中搜索“GoodNotes”,查看应用详情以确认大小,然后进行安装。模型确认“GoodNotes”应用大小为1.39 GB,并截图验证。安装需用户认证,模型记录每个步骤并确认安装序列已启动,等待用户干预。
案例研究:办公生产力软件
办公软件在现代工作和教育环境中至关重要,涉及文档撰写、数据分析和演示制作等任务。自动化办公软件中的任务可提高效率、减少重复工作和人为错误。办公软件通常缺乏程序化接口,需通过GUI自动化模型直接与视觉界面交互。该模型需具备强大的视觉识别能力,以准确定位和操作复杂的界面元素。精确执行操作至关重要,任何小错误都可能导致不正确的结果。模型需适应不同软件版本和用户自定义的界面布局。通过案例研究,评估模型在办公软件中自动化任务的能力,分析其对人类生产力的支持潜力。
转发指定邮件并抄送给其他收件人
模型在Outlook中规划转发邮件的步骤,包括定位最新的Anthropic邮件、打开邮件、点击转发按钮、输入主收件人和抄送地址。模型确认打开的邮件可见,确保处理正确的邮件。每个操作后,模型截图验证输入是否正确。最终确认所有步骤成功完成,展示了模型在专业邮件管理中的能力和自我监控能力。
将文档布局更改为横向A3大小
规划。模型在Microsoft Word中调整文档布局,识别必要步骤:打开“布局”选项卡,选择“大小”更改纸张为A3,设置方向为“横向”。
行动。模型执行步骤:点击“布局”选项卡,选择“大小”并选择A3;点击“方向”下拉菜单,选择“横向”。
反馈。模型确认文档已成功调整为指定布局,确保格式符合用户要求。
文档分栏
模型的规划过程。访问“布局”选项卡,选择“列”中的“两列”设置,重新格式化文档。
行动步骤。点击“布局”选项卡,找到并点击“列”按钮,选择“两列”选项。
确认结果。文档成功重组为两列,确认布局更改已按用户要求完成。
更新简历模板上的姓名和电话号码(失败)
模型计划更新简历中的姓名和电话号码,目标是将“Janna Gardner”替换为“Sonnet”,并将电话号码更新为“7355608”。在执行过程中,模型通过双击选择“Janna Gardner”并输入“Sonnet”,但只替换了姓,名“Janna”未变。更新电话号码时,模型仅选择了部分数字,导致信息更新不完整。模型错误地确认任务成功,未能识别部分更新的问题,显示出文本选择准确性不足和反馈验证的局限性。
渐变填充背景
模型规划在PowerPoint中为新幻灯片应用渐变填充背景的步骤,包括打开PowerPoint、创建新幻灯片和访问背景格式选项。模型右键点击幻灯片,但因点击了标题文本框未能显示“格式背景”选项。模型在重新规划,通过访问设计选项卡成功找到“格式背景”按钮。模型选择“渐变填充”并成功应用于幻灯片。模型在未找到所需面板后,迅速调整计划,展示了其适应能力。
修改幻灯片标题并绘制三角形
模型计划在PowerPoint中添加标题“Triangle”和一个三角形,分步骤进行。第一步是点击标题框并输入“Triangle”;接着在“Shapes”菜单中选择三角形并绘制。模型确认标题和三角形成功添加,确保视觉修改完成。该示例展示了模型对PowerPoint多样功能的有效控制。
插入编号符号(失败)
模型在PowerPoint中计划逐步添加编号符号,意识到工具的可用性。第一步点击第二张幻灯片,尝试应用编号,但错误地使用了项目符号。识别错误后,模型调整方法,尝试切换到编号格式。在选择文本时遇到困难,未能准确选择所有项目。最终未能有效评估结果,可能导致误导性观察。模型在选择精度和功能按钮定位上存在局限,需改进选择控制和最终验证步骤。
查找和替换工作表
模型确认Excel已打开,计划使用“查找和替换”对话框将“ ”替换为“ S G D ”。通过快捷键“ C t r l + H ”打开对话框,输入查找文本“ ”替换为“SGD”。通过快捷键“Ctrl+H”打开对话框,输入查找文本“ ”替换为“SGD”。通过快捷键“Ctrl+H”打开对话框,输入查找文本“”和替换文本“SGD”。点击“全部替换”按钮,成功替换190个实例。最后确认Excel反馈,确保操作准确完成。
在单元格上插入求和方程
规划阶段。模型识别需要对“ACTUAL”列求和,并将结果插入“Total budget”行的空单元格,明确求和范围。
行动步骤。模型点击“Total budget”行的空单元格,输入SUM公式,选择C6到C15的范围并按“Enter”完成。
反馈问题。模型解释SUM函数,但未验证所选范围的准确性,缺乏最终确认。
错误发生。模型错误选择C6到C15而非正确的D6到D16,且遗漏“Other Expenses”行,导致计算不完整。
限制展示。模型在范围选择和数学推理上存在局限,需改进自我反馈和选择准确性以满足Excel数据处理需求。
讨论
错误分类
评估中展示了模型失败的代表性案例,揭示了任务理解和执行的局限性。失败原因被分类为三种错误:
-
规划错误(PE):模型生成错误计划,通常因误解任务指令或当前状态。
-
行动错误(AE):计划正确但执行错误,常因界面理解或空间识别问题。
-
评估错误(CE):模型错误评估自身行为或状态,导致反馈不准确。
面向未来的GUI Agent
未来基准测试需更动态、互动的环境,考虑软件版本和屏幕分辨率的多样性,以反映真实世界的复杂性。模型在任务完成判断上存在误判,需改进自我评估机制,可能需要引入严格的内部评估模块。当前模型未能完全模拟人类计算机使用的细微差别,如页面滚动和浏览,训练数据的局限性导致信息碎片化和不完整。
总结
本研究展示了API基础的GUI Agent Claude 3.5在多种桌面环境中的初步案例研究。重点评估了其在网页导航、工作流程、生产力软件和视频游戏中的表现。研究指出了当前模型在规划、行动执行和反馈方面的潜力与局限性。提供了“Computer Use Out-of-the-Box”框架,旨在缩小可访问性差距,便于在实际场景中部署和基准测试这些模型。希望该框架和评估方法能为GUI Agent研究的进一步发展奠定基础,推动更复杂和可靠的自动化计算机使用模型的进步。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈