让 AI 来使用计算机！Agent S：基于 GUI 的人机交互自动化解决方案

最新推荐文章于 2025-03-31 10:21:19 发布

蚝油菜花

最新推荐文章于 2025-03-31 10:21:19 发布

阅读量1.4k

点赞数 22

分类专栏：每日 AI 项目与应用实例文章标签：人工智能人机交互自动化

本文链接：https://blog.csdn.net/qq_19841021/article/details/143087760

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

微信公众号｜搜一搜：蚝油菜花
在这里插入图片描述

🚀 快速阅读

Agent S 是一个基于图形用户界面（GUI）实现人机交互自动化的开源框架。
它通过经验增强的分层规划和多模态大型语言模型（MLLMs）提升任务自动化能力。
支持跨操作系统通用性，适用于办公自动化、网页交互、个人助理等多种应用场景。

正文（附运行示例）

Agent S 是什么

Agent S 是一个创新的代理框架，旨在通过图形用户界面（GUI）实现人机交互的自动化。简单来说，它就像一个虚拟助手，能够模拟人类的操作方式，使用鼠标和键盘直接与计算机互动，处理复杂的多步骤任务。Agent S 引入了一种叫做“经验增强的分层规划”的方法，结合在线网络知识和内部记忆，将复杂任务分解成更易管理的子任务，从而显著提升了基于多模态大型语言模型（MLLMs）的 GUI 代理的推理和控制能力。

Agent S 的主要功能

自主交互与任务自动化：Agent S 可以通过 GUI 与计算机进行自主交互，自动化执行复杂的多步骤任务。
经验增强的分层规划：利用在线网络知识和内部经验，将复杂任务分解成可执行的子任务。
代理-计算机接口（ACI）：提升基于 MLLMs 的 GUI 代理的推理和控制能力，确保精确交互。
持续学习和记忆更新：通过自我评估和经验总结，不断更新叙事记忆和情景记忆。
跨操作系统的通用性：在不同操作系统上都能良好运行，适应多种环境。

Agent S 的技术原理

经验增强的分层规划：结合在线网络搜索和内部经验检索，使用叙述记忆和情景记忆来规划和执行任务。
代理-计算机接口（ACI）：作为一个抽象层，定义了与环境交互的范式，通过视觉输入和图像增强的可访问性树精确定位元素。
叙事记忆与情景记忆：叙事记忆存储高层次任务经验，情景记忆则包含具体子任务执行的细节。
自我评估与记忆更新：基于自我评估模块总结经验，并以文本奖励的形式更新内部记忆。
多模态大型语言模型（MLLMs）：处理和生成语言，理解环境变化，执行基于语言的原始动作。

如何运行 Agent S

安装步骤

克隆仓库：

git clone https://github.com/simular-ai/Agent-S.git

创建虚拟环境并激活：

conda create -n agent_s python=3.9
conda activate agent_s

安装依赖：
```
pip install -e .
```

设置 Perplexica

确保 Docker 已安装并运行。

克隆 Perplexica 仓库：

git clone https://github.com/ItzCrazyKns/Perplexica.git

修改配置文件：
- config.toml中填写必要的 API 密钥和 URL。
启动 Docker 容器：
```
docker compose up -d
```

设置 Paddle-OCR 服务器

运行 OCR 服务器：
```
cd agent_s
python ocr_server.py
```

设置环境变量：

export OCR_SERVER_ADDRESS=http://localhost:8000/ocr/

本地运行

在 MacOS 或 Ubuntu 上通过 OpenACI 运行：

python examples/cli_app.py --model <MODEL>

这将显示用户查询提示，可以输入查询与 Agent S 交互。

资源

项目官网：simular.ai/agent-s
GitHub 仓库：github.com/simular-ai/Agent-S
arXiv 技术论文：arxiv.org/abs/2410.08164
Perplexica 仓库：github.com/ItzCrazyKns/Perplexica

微信公众号｜搜一搜：蚝油菜花