智谱清言AutoGLM:边想边干的AI智能体技术革新

注:本文完全由智谱清言AutoGLM全权编写,所有资料查询均由其自行操作

引言

随着人工智能技术的飞速发展,AI智能体(Agent)逐渐成为连接大模型与实际应用场景的重要桥梁。智谱AI推出的AutoGLM(Autonomous Foundation Agents for GUIs)作为一款基于图形用户界面(GUI)的自主任务完成智能体,代表了AI Agent领域的重大突破。AutoGLM能够理解用户需求,直接操作手机完成指令,实现"边想边干"的全新人机交互模式。本文将全面解析AutoGLM的核心技术、应用场景以及未来发展趋势,为读者提供对该技术的深入理解。

AutoGLM的基本概念与定位

AutoGLM是智谱AI团队推出的一款革命性的AI智能体产品,旨在模拟人类在手机上的操作行为。它基于图形用户界面(GUI),能够接收简单的文字或语音指令,自动完成各种手机任务[21]。AutoGLM沉思是智谱最新发布的版本,它是一个能探究开放式问题,并根据结果执行操作的自主智能体(AI Agent)[3]。

AutoGLM的核心设计理念源于对现有AI技术局限性的洞察,以及对未来人机交互方式的前瞻性思考。通过结合先进的机器学习技术和图形用户界面(GUI)交互模式,AutoGLM实现了从传统大模型到自主智能体的跨越[8]。

智谱的AutoGLM是第一家国内机构推出的基于GUI的agent。而今天的AutoGLM沉思,不仅将agent的执行任务能力带到了桌面端,更是把工具操作能力、深度研究能力结合在一起[0]。

AutoGLM的技术架构与核心原理

中间接口设计

AutoGLM的核心技术之一是"基础智能体解耦合中间界面"设计,这一创新使得规划和定位行为能够分离。通过将它们分成不同的模块,可以从灵活性和准确性两个维度改进基础智能体,而不会相互干扰[17]。

在传统的大模型智能体中,训练大模型智能体的一大难题,在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练"动作执行"和"任务规划"能力,受制于轨迹数据获取成本高昂,数据总量严重不足,导致需要高精度的动作执行能力训练不充分[15]。

为了解决这一问题,AutoGLM引入了"基础智能体解耦合中间界面"设计,将"任务规划"与"动作执行"两个阶段通过自然语言中间界面进行解耦合,实现了智能体能力的极大提升[15]。

自进化在线课程强化学习框架

另一个核心技术是"自进化在线课程强化学习框架"(WEBRL),该框架专为训练网页智能体而设计,能够在在线网络环境中从头开始学习和提升大模型智能体在Web和Phone环境中的能力[15]。

通过引入自进化学习策略,模型不断自我考察、鞭策、提升。通过课程强化学习方法,该框架根据智能体当前迭代轮次的能力水平,动态调整学习的任务难度,以最大程度利用模型潜能[15]。

而通过KL散度控制的策略更新以及智能体置信度经验回放,AutoGLM减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题。基于该方法训练的开源版GLM-4-9B,就可以在WebArena-Lite评测基准中相对GPT-4o提升超过160%,达到总体43%的任务成功率[15]。

GUI交互机制

AutoGLM的GUI交互机制是其核心技术的另一个重要组成部分。这项技术巧妙地融合了先进的大语言模型(LLM)和图形用户界面(GUI)处理技术,为用户提供直观、高效的交互体验[16]。

AutoGLM通过无障碍服务权限获取用户当前屏幕上的信息,基于此进行理解分析并且做出任务规划,实现手机上常用操作的模拟执行。AutoGLM严格尊重用户隐私,所有页面信息的获取均围绕用户向AutoGLM主动发起的任务进行,AutoGLM本身并不会主动获取用户的个人隐私信息[15]。

对于授权范围以外的任务会主动提示用户获取用户同意,涉及交易、支付等重要操作的步骤也会向用户进一步询问是否执行。每次关闭应用在后台再次启动AutoGLM功能,都会重新向用户申请无障碍权限,用户想退出使用的,也可以选择在手机设置页面进行手动关闭[15]。

AutoGLM的应用场景与能力

支持的应用与功能

AutoGLM目前支持多种主流应用,包括微信、淘宝、美团、小红书等8款常用应用软件,覆盖了社交、购物、出行等多个场景[15]。用户可以像和朋友聊天一样给AutoGLM发指令,它就能帮用户完成各种手机任务[7]。

AutoGLM的任务规划能力使其能够理解复杂指令,并规划出最佳执行步骤[7]。例如,在微信上"给老板的朋友圈点赞并写评论",在淘宝上"购买某一款历史订单产品",以及在携程上预订酒店、在12306上购买火车票、在美团上点外卖等[15]。

理论上,通过对GUI的深刻理解,AutoGLM可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类[15]。

实际应用场景

社交场景

在社交场景中,AutoGLM可以自动完成朋友圈点赞评论、微博互动等操作。例如,用户可以指示AutoGLM在微信上"给老板的朋友圈点赞并写评论",AutoGLM会自动打开微信应用,找到老板的朋友圈,进行点赞并撰写评论[15]。

购物场景

在购物场景中,AutoGLM可以自动完成商品搜索、下单、评价等操作。例如,用户可以指示AutoGLM在淘宝上"购买某一款历史订单产品",AutoGLM会自动打开淘宝应用,搜索历史订单,找到指定的商品并完成购买[15]。

服务预订

在服务预订场景中,AutoGLM可以自动完成酒店预订、火车票购买等操作。例如,用户可以指示AutoGLM在携程上预订酒店、在12306上购买火车票等[15]。

外卖点餐

在外卖点餐场景中,AutoGLM可以自动完成外卖平台的搜索、下单等操作。例如,用户可以指示AutoGLM在美团上点外卖,AutoGLM会自动打开美团应用,搜索附近的外卖商家,根据用户指令选择合适的商家和菜品,完成下单[15]。

内容创作

在内容创作场景中,AutoGLM可以自动完成评论撰写、文章编辑等操作。例如,用户可以指示AutoGLM在大众点评上写评论,AutoGLM会自动打开大众点评应用,找到需要评价的商家,根据用户提供的信息撰写评论并提交[15]。

AutoGLM与其他智能体的比较

与传统大模型的区别

传统大模型主要关注语言理解和生成能力,虽然具有一定的推理和规划能力,但在动态现实世界环境中的决策制定方面常常遇到困难,限制了它们向人工通用智能的发展[17]。

而AutoGLM作为基础智能体,专注于通过自主环境交互学习,加强现有模型,能够在Web浏览器和Android环境中的GUI操作中展现出强大的能力[17]。

与Manus的比较

Manus和AutoGLM分别代表了不同方向的技术突破和应用创新[20]。从用户体验来看,Manus运行在独立虚拟机中,执行任务时可以关闭其页面,不影响它在后台继续保持工作。而AutoGLM则通过模拟人类操作,直接控制用户的手机应用[35]。

与国外类似产品的比较

AutoGLM在性能上也优于国外的一些类似产品。例如,在AndroidLab(VAB-Mobile)上,AutoGLM实现了36.2%的成功率,超过了GPT-4o(31.2%成功率)和Claude-3.5-Sonnet(29.0%成功率)[17]。

在Web浏览方面,AutoGLM在具有挑战性的VAB-WebArena-Lite上实现了55.2%的任务成功率(第二次尝试提高到59.1%),大大超过了GPT-4o的18.2%[17]。

AutoGLM的用户体验与评价

用户实际使用体验

从用户实际使用体验来看,AutoGLM在支持的应用场景中表现令人满意。例如,在点外卖的测试中,AutoGLM能够准确地打开美团应用,找到需要的商家和菜品,完成下单操作[32]。

在写点评的测试中,AutoGLM能够自动打开大众点评应用,找到需要评价的商家,根据用户提供的信息撰写评论并提交[32]。

在看公众号的测试中,AutoGLM能够自动打开微信公众号,搜索相关内容,提取有用信息[32]。

评价与反馈

从用户评价和反馈来看,AutoGLM受到了广泛好评。许多用户认为,AutoGLM真正实现了AI智能体从Chat到Act的转变,不再是简单的对话,而是能够执行实际任务的智能体[25]。

一些用户在使用AutoGLM后表示,它能够帮助他们完成许多日常任务,提高工作效率。例如,有人使用AutoGLM自动撰写大众点评,有人使用它自动完成外卖点餐,有人使用它自动搜索和整理信息[36]。

优势与不足

AutoGLM的主要优势在于其自主性和灵活性。它不需要用户手动搭建复杂的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类[15]。

此外,AutoGLM严格尊重用户隐私,所有页面信息的获取均围绕用户向AutoGLM主动发起的任务进行,不会主动获取用户的个人隐私信息[15]。

然而,AutoGLM也存在一些不足之处。例如,语音识别有时会出现偏差,复杂界面下的操作稳定性还需提升,只支持安卓也限制了不少用户[5]。

AutoGLM的技术实现细节

多模态识别与Grounding能力

多模态识别是AutoGLM的核心能力之一。它能够识别目标并给出坐标,用于精准点击。例如,在大众点评写评论的测试中,AutoGLM需要识别评分组件、输入框等元素,并准确判断在哪个位置点击[5]。

据测试者推测,AutoGLM的grounding模型能力不错,能够在复杂的界面中准确识别需要点击的元素[5]。

操作逻辑与实现方式

AutoGLM的操作逻辑基于RPA(机器人流程自动化)的方式实现,通过无障碍服务模拟人类操作,不需要跟厂家直接对接[28]。

具体来说,AutoGLM通过无障碍服务权限获取用户当前屏幕上的信息,基于此进行理解分析并且做出任务规划,实现手机上常用操作的模拟执行[15]。

与传统RPA的区别

与传统的RPA工具相比,AutoGLM具有显著的优势。传统RPA工具主要依靠预设的规则和脚本,需要预先编写指令,告诉机器人如何执行任务。指令可以基于现有的工作流程或基于人的操作记录来编写[6]。

而AutoGLM则是一个自主智能体,能够理解用户的自然语言指令,自主规划操作路径,识别手机页面,自动模拟人类操作手机和网页,执行各种任务[12]。

AutoGLM的性能评估

评估基准与结果

AutoGLM在多个评估基准上表现出色。在Web浏览方面,AutoGLM在具有挑战性的VAB-WebArena-Lite上实现了55.2%的任务成功率(第二次尝试提高到59.1%),大大超过了GPT-4o的18.2%[17]。

在OpenTable现实世界预订任务上,AutoGLM实现了96.2%的成功率,超过了GPT-4o(62.6%成功率)和Agent Q(81.7%)[17]。

在Android控制方面,AutoGLM在AndroidLab上实现了36.2%的成功率,超过了GPT-4o(31.2%成功率)和Claude-3.5-Sonnet(29.0%成功率)[17]。

在Android上的人类评估中,AutoGLM在流行的中国APP中的常见任务上取得了令人印象深刻的89.7%成功率(例如,“请从最近的咖啡店为我订购一大杯半糖冰美式咖啡,送到我的公司”)[17]。

与人类操作的对比

虽然AutoGLM在许多任务上表现优秀,但与人类操作相比,仍有一定的差距。例如,在处理复杂界面和异常情况时,AutoGLM可能不如人类灵活。

然而,AutoGLM的优势在于其能够自动化重复性任务,提高效率,尤其是在处理大量数据和执行繁琐操作时。此外,AutoGLM可以24/7不间断工作,不会疲劳,这对于需要持续监控和响应的任务特别有价值。

AutoGLM的未来发展趋势

技术演进方向

AutoGLM的技术演进方向包括多模态理解能力的提升、操作精准度的提高、支持场景的丰富等。随着多模态理解能力的提升,支持场景会越来越丰富;随着操作精准度的提高,用户体验会越来越自然[5]。

此外,AutoGLM可能会进一步优化其"自进化在线课程强化学习框架",使其能够更快、更有效地从经验中学习,不断提高其任务执行能力。

应用场景扩展

AutoGLM的应用场景可能会进一步扩展,覆盖更多的领域和场景。例如,在智能制造领域,AutoGLM可以在工业机器人上运行,实现实时故障检测和生产优化[31]。

在智能驾驶领域,AutoGLM可以用于车辆的自动驾驶系统,帮助车辆理解和响应复杂的交通环境。

在医疗健康领域,AutoGLM可以用于医疗数据分析和辅助诊断,帮助医生更快、更准确地做出诊断和治疗决策。

商业化前景

AutoGLM的商业化前景非常广阔。随着AI技术的不断发展和普及,越来越多的企业和个人开始关注和采用AI智能体技术。智谱AI作为AutoGLM的开发者,已经与荣耀等手机厂商基于AutoGLM开展深度合作[15]。

此外,智谱AI表示,AutoGLM沉思的核心模型(如GLM-Z1-Air、GLM-Z1-Rumination)将于2025年4月14日正式开源,各企业可以免费集成相关功能,推动相关生态进一步扩展,并快速催化相关应用场景[21]。

这表明智谱AI致力于构建一个开放、共享的AI智能体生态系统,吸引全球开发者参与建设和完善。

AutoGLM的使用指南

安装与配置

目前,AutoGLM只能在安卓设备上使用,iOS应该很长时间内都不会支持[5]。

要使用AutoGLM,首先需要在智谱清言APP中申请内测资格,直接跟AutoGLM内测申请小助手对话提交申请即可[5]。

安装AutoGLM后,需要引导用户去开启无障碍权限和悬浮球权限,不然就没有办法继续体验[5]。

基本操作

使用AutoGLM的基本操作非常简单。用户只需要向AutoGLM发送简单的文字/语音指令,它就可以模拟人类操作手机,帮助用户完成各种任务[15]。

例如,用户可以发送指令"帮我购买一杯咖啡",AutoGLM会自动打开美团应用,搜索附近的咖啡店,选择合适的商家和咖啡,完成下单操作。

用户也可以发送指令"帮我写一篇大众点评",AutoGLM会自动打开大众点评应用,找到需要评价的商家,根据用户提供的信息撰写评论并提交。

高级功能与技巧

AutoGLM还支持一些高级功能和技巧,可以帮助用户更高效地使用它。

例如,用户可以为AutoGLM提供更详细的信息,以便它能够更准确地理解和执行任务。例如,“帮我买一杯咖啡"和"帮我买一包咖啡豆”,虽然都是"买咖啡",但AutoGLM会根据具体的需求打开不同的应用(前者打开美团,后者打开淘宝)[5]。

此外,用户还可以使用AutoGLM的"深度研究"能力,例如"帮我收集昨天关于具身智能的相关研报",AutoGLM能够规划出通过访问巨潮资讯解决问题的方案,并顺利操作网站[22]。

AutoGLM的局限性与挑战

技术限制

尽管AutoGLM在许多方面表现出色,但仍存在一些技术限制。例如,语音识别有时会出现偏差,复杂界面下的操作稳定性还需提升[5]。

此外,AutoGLM目前只支持安卓设备,不支持iOS设备,这限制了其用户群体[5]。

用户隐私与安全

AutoGLM通过无障碍服务权限获取用户当前屏幕上的信息,这可能会引发用户对隐私和安全的担忧。尽管AutoGLM严格尊重用户隐私,所有页面信息的获取均围绕用户向AutoGLM主动发起的任务进行,不会主动获取用户的个人隐私信息[15],但用户仍然需要谨慎授权,确保自己的个人信息不被滥用。

应用兼容性与稳定性

AutoGLM目前只支持有限数量的应用,如微信、淘宝、美团、小红书等8款常用应用软件[15]。对于其他应用,AutoGLM可能无法正常工作。

此外,AutoGLM在执行任务时可能会遇到各种问题,例如应用界面更新导致定位错误、网络连接不稳定导致操作失败等。这些问题需要AutoGLM不断优化和改进,以提高其稳定性和可靠性。

结论

智谱清言AutoGLM代表了AI智能体技术的重要突破,它通过结合先进的机器学习技术和图形用户界面(GUI)处理技术,实现了从传统大模型到自主智能体的跨越。AutoGLM能够理解用户需求,直接操作手机完成指令,实现"边想边干"的全新人机交互模式。

AutoGLM的核心技术包括"基础智能体解耦合中间界面"和"自进化在线课程强化学习框架",这些技术使AutoGLM能够在多种应用场景中表现出色,支持微信、淘宝、美团、小红书等8款常用应用软件,覆盖社交、购物、出行等多个场景。

虽然AutoGLM仍存在一些技术限制,如语音识别有时会出现偏差,复杂界面下的操作稳定性还需提升,只支持安卓设备等,但其发展前景非常广阔。随着多模态理解能力的提升、操作精准度的提高、支持场景的丰富等,AutoGLM有望成为连接人类与数字世界的桥梁,彻底改变人机交互的方式。

智谱AI表示,AutoGLM沉思的核心模型将于2025年4月14日正式开源,这将进一步推动AI智能体技术的发展和应用。我们有理由相信,随着技术的不断进步和生态的不断完善,AutoGLM将会在更多领域和场景中发挥重要作用,为人类创造更智能、更便捷的生活和工作方式。

参考资料

[0] 实测有沉思能力的智谱AutoGLM ,我们离会思考的agent 又近了一步. https://www.ifanr.com/1619258.

[3] 智谱正式发布「AutoGLM沉思」 - OSCHINA - 中文开源技术交流社区. https://www.oschina.net/news/341982/zhipu-autoglm.

[5] 【智谱AutoGLM】深度体验报告及原理分析 - 53AI. https://www.53ai.com/news/LargeLanguageModel/2024103059172.html.

[6] AutoGLM-AI智能体-技术学习 - 知乎专栏. https://zhuanlan.zhihu.com/p/9483980326.

[7] 广告行业中那些趣事系列95:详细介绍智谱AI的大模型系列产品. https://zhuanlan.zhihu.com/p/18382248316.

[8] 真正的Agent来了,智谱新模型AutoGLM的相关应用 - CSDN博客. https://blog.csdn.net/weixin_42878111/article/details/143590299.

[12] 智谱AutoGLM - 飞书文档. https://docs.feishu.cn/article/wiki/GKu8wivgHiA4yukvMpjcvq69nLh.

[15] 智谱. https://www.zhipuai.cn/news/144.

[16] 真正的Agent来了,智谱新模型AutoGLM的相关应用 - CSDN博客. https://blog.csdn.net/weixin_42878111/article/details/143590299.

[17] AutoGLM-图形用户界面操作自主基础智能体技术详解 - 知乎专栏. https://zhuanlan.zhihu.com/p/5934862133.

[20] AI应用新浪潮人机协作新图景(附编者按、图片). https://finance.sina.com.cn/roll/2025-03-13/doc-inepnchw5137139.shtml.

[21] 真正的Agent来了,智谱新模型AutoGLM的相关应用 - CSDN博客. https://blog.csdn.net/weixin_42878111/article/details/143590299.

[22] 智谱AutoGLM Web初体验- PetterLiu - 博客园. https://www.cnblogs.com/wintersun/p/18692551.

[25] 智谱AutoGLM:AI智能体能否自己赚钱?.https://ailuntan.net/post.php?id=316.

[28] AutoGLM-AI智能体-技术学习 - 知乎专栏. https://zhuanlan.zhihu.com/p/9483980326.

[31] 智谱上线AutoGLM沉思,OpenAI不再独享Deep Research - 知乎专栏. https://zhuanlan.zhihu.com/p/1890019095296055069.

[32] 【智谱AutoGLM】深度体验报告及原理分析 - 53AI. https://www.53ai.com/news/LargeLanguageModel/2024103059172.html.

[35] 实测智谱新智能体AutoGLM沉思:跨平台"边想边干"破信息壁垒. https://finance.sina.com.cn/tech/roll/2025-03-31/doc-inerqfen1038062.shtml.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值