【LLM】通过CogAgent模型和AutoGLM-Web模型控制GUI

山顶夕景

已于 2024-10-27 16:05:52 修改

阅读量1.6k

点赞数 28

分类专栏： # LLM大模型 # RAG和Agent 文章标签： agent 大模型 GUI

于 2024-10-25 14:38:55 首次发布

本文链接：https://blog.csdn.net/qq_35812205/article/details/143233392

版权

LLM大模型同时被 2 个专栏收录

122 篇文章

订阅专栏

RAG和Agent

38 篇文章

订阅专栏

note

两个模型的目的：像人类一样感知环境、规划任务、执行动作（如使用工具/软件），最终完成特定任务；应用：购物、发短信等操作。

一、CogAgent模型

1、CogAgent：一个替代终端用户理解、使用图形用户界面（GUI），完成信息获取和功能触发的智能体，更具泛化性和拟人性，目前支持在 Windows、macOS 软件上进行自然语言交互（包括打字输入和语音输入）、截图交互和划词交互；

目前支持：具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，可以在不依赖 API 调用的条件下，实现跨应用、跨网页的功能调用来执行任务。

具体过程：CogAgent 已经可以通过串联GUI信息的收集、处理、分发流程，提供多轮、跨应用、上下文相关的服务，来协助用户处理以下事项：

1、用户“不想做”的事：包括重复繁琐的GUI操作（如批量信息收集、会议预定）和复杂认知活动（如界面内容总结）。
2、用户“不知道”的事：涵盖困难或不熟悉的GUI操作（如首次使用应用或功能）及超出用户认知能力的任务（如界面内容翻译）。

在这里插入图片描述

二、AutoGLM-Web模型

核心内容：AutoGLM-Web 基于「自进化在线课程强化学习框架 WEBRL」，克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题，加之自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。

特点：基于 WEBRL 的强大能力，AutoGLM-Web 可以完成人类在电子设备上可以做的任何事，它不受限于简单的任务场景或 API 调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似，真正做到在日常，生活、工作中辅助人类。

在这里插入图片描述

AutoGLM-Web：一个能模拟用户访问网页、点击网页的浏览器助手，可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页，结合历史邮件信息回复邮件。

目前，CogAgent 已经在智谱公司内部和部分合作伙伴中使用，AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。

AutoGLM是能够根据语言指令，为用户操作手机、浏览器等设备的智能体Agent，目前已经可以实现在手机上购物、写好评、发微信消息等操作，也能够在浏览器插件上自动为用户筛选和总结信息。

当前的能力范围（截止20241027）：

微信 ：微信发消息（文字/位置等），公众号文章总结，朋友圈点赞/评论，打电话等
淘宝 ：商品选购，店铺查找，评价总结/撰写，订单/购物车操作等
美团 ：点外卖相关
大众点评 ：打卡，写好评，查评价/榜单，查店铺等
小红书 ：点赞/评论笔记，关注指定用户，写总结等
高德地图 ：导航，路线规划，查询周边等
12306 ：订车票，订机票，查车次等
携程 ：订酒店等

注意：一些重要动作会需要人类另外操作，如下

即时通讯类操作 （如发送消息、邮件和点赞、发布评论等）；
文件类操作 （如撰写、删除、修改文件等）；
购物订单类操作 （如清空购物车、下单及增加、变更收货地址等）；
涉及资金往来的操作 （如转账、支付、收款、使用优惠券等）；
账号管理类操作 （如修改密码、删除好友、删除对话等）；
其他可能影响用户数据或财产安全的操作 。

CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS（以大模型为中心的通用计算系统）的不同尝试，尽管基于不同的技术路线，但两者均瞄向同样一个目标：实现模仿人类的 Plan-Do-Check-Act 循环，形成自我反馈和自我提升——恰如人类自己所做的一样。