从自主 Web 导航到智能体系统中的基本设计原则

最新推荐文章于 2024-08-18 21:06:49 发布

海v尔v前v员工

最新推荐文章于 2024-08-18 21:06:49 发布

阅读量3

点赞数

文章标签：前端

Agent-E是一种新型的网络智能体，它在自主网络导航方面实现了许多架构上的创新，包括层次化设计、灵活的文档对象模型（DOM）提炼与降噪技术，以及利用变化观察来指导智能体更准确地执行任务。Agent-E在WebVoyager基准数据集上的评估结果显示，它在大多数类别中超越了其他先进的文本和多模态网络智能体，性能提升了10%-30%。此外，作者还从Agent-E的开发经验中提炼出了若干一般性的设计原则，这些原则适用于开发高性能的智能体系统，涵盖了领域特定的基础技能应用、环境观察的提炼与去噪、层次化架构的优势，以及智能体自我改进机制等方面。

从自主 Web 导航到智能体系统中的基本设计原则_工作流程

1 Agent-E的组成

Planner Agent（规划智能体）：负责任务的规划和管理，它会将用户的任务分解成一系列子任务，并依次分配给Browser Navigation Agent（浏览器导航智能体）。
Browser Navigation Agent（浏览器导航智能体）：负责执行各个子任务，它通过感知网页并使用不同的DOM（Document Object Model，文档对象模型）提炼能力来确定下一步的操作，并向Planner Agent报告任务成功与否。
Planner Skills Executor（规划技能执行器）：执行由Planner Agent建议的功能，并将响应返回给Planner Agent。
Browser Navigation Skills Executor（浏览器导航技能执行器）：执行由Browser Navigation Agent建议的功能，并将响应返回给Browser Navigation Agent。

2 工作流程和运行模式

1.工作流程

任务分解：Planner Agent接收用户任务后将其分解成多个子任务。
子任务分配：Planner Agent将分解后的子任务分配给Browser Navigation Agent。
DOM感知与操作：Browser Navigation Agent使用DOM提炼能力感知网页，并确定下一步的操作。
反馈循环：Browser Navigation Agent执行操作并向Planner Agent报告任务的执行结果。
迭代执行：这个过程反复进行直到任务完成。

2.运行模式

Autonomous Mode（自主模式）：Agent-E独立完成整个任务。
Human-in-the-Loop Mode（人机协作模式）：当Agent-E遇到无法解决的问题（如登录页面或解决验证码）或任务本身不明确需要澄清时，它会向用户求助。

3 结语

文章介绍了Agent-E，一种具有新颖架构的网络智能体，它通过引入层次化设计、DOM提炼与降噪技术以及变化观察机制，在WebVoyager基准测试中表现出色，并从中总结出了一套适用于高效智能体系统的设计原则。

论文题目：Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems

论文链接： https://arxiv.org/abs/2407.13032

PS: 欢迎大家扫码关注公众号^_，我们一起在AI的世界中探索前行，期待共同进步！

从自主 Web 导航到智能体系统中的基本设计原则_工作流程_02

精彩回顾

1. Internet of Agents: 异构代理网络

2. 大语言模型的视频推理分割--ViLLa

3 . 获得权威认证：人工智能从业人员证书颁发

原创作者: u_16811054 转载于: https://blog.51cto.com/u_16811054/11754014

海v尔v前v员工

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从自主 Web 导航到智能体系统中的基本设计原则

Agent-E是一种新型的网络智能体，它在自主网络导航方面实现了许多架构上的创新，包括层次化设计、灵活的文档对象模型（DOM）提炼与降噪技术，以及利用变化观察来指导智能体更准确地执行任务。Agent-E在WebVoyager基准数据集上的评估结果显示，它在大多数类别中超越了其他先进的文本和多模态网络智能体，性能提升了10%...
复制链接

扫一扫