note
- 两个模型的目的:像人类一样感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务;应用:购物、发短信等操作。
一、CogAgent模型
1、CogAgent:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行自然语言交互(包括打字输入和语音输入)、截图交互和划词交互;
目前支持:具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可以在不依赖 API 调用的条件下,实现跨应用、跨网页的功能调用来执行任务。
具体过程:CogAgent 已经可以通过串联GUI信息的收集、处理、分发流程,提供多轮、跨应用、上下文相关的服务,来协助用户处理以下事项:
- 1、用户“不想做”的事:包括重复繁琐的GUI操作(如批量信息收集、会议预定)和复杂认知活动(如界面内容总结)。
- 2、用户“不知道”的事:涵盖困难或不熟悉的GUI操作(如首次使用应用或功能)及超出用户认知能力的任务(如界面内容翻译)。
二、AutoGLM-Web模型
核心内容:AutoGLM-Web 基于「自进化在线课程强化学习框架 WEBRL」,克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。
特点:基于 WEBRL 的强大能力,AutoGLM-Web 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常,生活、工作中辅助人类。
AutoGLM-Web:一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。
目前,CogAgent 已经在智谱公司内部和部分合作伙伴中使用,AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。
AutoGLM是能够根据语言指令,为用户操作手机、浏览器等设备的智能体Agent,目前已经可以实现在手机上购物、写好评、发微信消息等操作,也能够在浏览器插件上自动为用户筛选和总结信息。
当前的能力范围(截止20241027):
微信 :微信发消息(文字/位置等),公众号文章总结,朋友圈点赞/评论,打电话等
淘宝 :商品选购,店铺查找,评价总结/撰写,订单/购物车操作等
美团 :点外卖相关
大众点评 :打卡,写好评,查评价/榜单,查店铺等
小红书 :点赞/评论笔记,关注指定用户,写总结等
高德地图 :导航,路线规划,查询周边等
12306 :订车票,订机票,查车次等
携程 :订酒店等
注意:一些重要动作会需要人类另外操作,如下
即时通讯类操作 (如发送消息、邮件和点赞、发布评论等);
文件类操作 (如撰写、删除、修改文件等);
购物订单类操作 (如清空购物车、下单及增加、变更收货地址等);
涉及资金往来的操作 (如转账、支付、收款、使用优惠券等);
账号管理类操作 (如修改密码、删除好友、删除对话等);
其他可能影响用户数据或财产安全的操作 。
CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS(以大模型为中心的通用计算系统)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的 Plan-Do-Check-Act 循环,形成自我反馈和自我提升——恰如人类自己所做的一样。
Reference
[1] AutoWebGLM:自动网页导航 Agent
[2] 自主 agent 的「一小步」:今天,把电脑交给大模型
[3] 之前类似的工作:https://github.com/THUDM/AutoWebGLM