西湖大学提出AppAgentX:“偷懒”也能高效?让Agent像你一样操作手机

这是一篇关于GUI代理的论文,非常值得看,核心思想是:如何让AI代理像我们一样熟练地操作智能手机界面(GUI),而不是像机器人一样笨拙地一步步点击

想象你每天都要在手机上重复同样的操作,比如打开某个App、搜索某个内容。如果每次都要一步步点击,那得多累啊!传统的基于规则的自动化系统虽然快,但它们缺乏智能,遇到新情况就傻眼了(比如突然弹出一个广告,它就懵了)。而基于大语言模型(LLM)的代理虽然聪明,但每次都要“思考”每一步操作,效率低下(仿佛一个学霸非要用手指数数)。于是,AppAgentX应运而生,它通过“进化”机制,让代理学会从历史操作中总结经验,生成“快捷操作”,从而大大提高效率。bdf10095d27feda56eba3dad2af38df0.png

论文:AppAgentX: Evolving GUI Agents as Proficient Smartphone Users
链接:https://arxiv.org/pdf/2503.02268
项目:https://appagentx.github.io

方法

AppAgentX的核心思想是让代理学会“偷懒”。具体来说,它通过以下几个步骤来实现:

  1. 记忆机制:代理会记录每次操作的历史,形成一个“知识链”。这个链不仅记录了每一步操作,还记录了每个页面的描述和UI元素的功能(比如“这个按钮点了会跳到下一页”)。这样,代理就能记住自己曾经做过什么,未来遇到类似情况时可以直接调用“快捷操作”(像极了人类遇到重复工作时掏出快捷键的熟练操作)。

  2. 进化机制:代理会分析历史操作,找出那些重复的低级操作序列,然后生成一个高级操作(比如“搜索”),直接替代这些低级操作。这样一来,代理就不用每次都从头开始“思考”了,效率自然就提高了(终于不用再当“复读机”了!)。

  3. 执行策略:当代理遇到一个任务时,它会先检查是否有现成的“快捷操作”可用。如果有,就直接执行;如果没有,再按部就班地操作(像极了人类先找快捷键,找不到再手动操作)。

07954766d09345e6876e42ad6b091251.png
代理如何用“搜索”高级动作替代一系列低级操作

实验

为了验证AppAgentX的有效性,作者们进行了一系列实验。实验主要对比了AppAgentX与基线模型和其他现有框架的表现。

实验设置

  • 评估指标:包括平均每任务步骤数、任务成功率、任务时间、每步骤时间、LLM的token消耗等。

  • 基准测试:使用了AppAgent Benchmark、DroidTask和Mobile-Bench等多个基准测试集。

实验结果

不同组件对AppAgentX性能的影响
不同组件对AppAgentX性能的影响
不同任务长度下的时间分布
不同任务长度下的时间分布
对比AppAgentX和其他框架在大规模任务中的表现
对比AppAgentX和其他框架在大规模任务中的表现

结论

总的来说,AppAgentX通过引入记忆机制进化机制,成功让GUI代理学会了“偷懒”。它不仅能高效地完成任务,还能在复杂任务中保持高成功率(比如设置Gmail暗黑模式这种需要多步操作的任务)。未来,随着屏幕内容理解和定位技术的进一步发展,AppAgentX的表现还有望进一步提升(或许哪天它能帮你自动刷短视频?)。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

bb20ab84a67a19a01144c5abbc9fcf22.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值