Agent-E是一种新型的网络智能体,它在自主网络导航方面实现了许多架构上的创新,包括层次化设计、灵活的文档对象模型(DOM)提炼与降噪技术,以及利用变化观察来指导智能体更准确地执行任务。Agent-E在WebVoyager基准数据集上的评估结果显示,它在大多数类别中超越了其他先进的文本和多模态网络智能体,性能提升了10%-30%。此外,作者还从Agent-E的开发经验中提炼出了若干一般性的设计原则,这些原则适用于开发高性能的智能体系统,涵盖了领域特定的基础技能应用、环境观察的提炼与去噪、层次化架构的优势,以及智能体自我改进机制等方面。

从自主 Web 导航到智能体系统中的基本设计原则_工作流程

1 Agent-E的组成

  • Planner Agent(规划智能体):负责任务的规划和管理,它会将用户的任务分解成一系列子任务,并依次分配给Browser Navigation Agent(浏览器导航智能体)。
  • Browser Navigation Agent(浏览器导航智能体):负责执行各个子任务,它通过感知网页并使用不同的DOM(Document Object Model,文档对象模型)提炼能力来确定下一步的操作,并向Planner Agent报告任务成功与否。
  • Planner Skills Executor(规划技能执行器):执行由Planner Agent建议的功能,并将响应返回给Planner Agent。
  • Browser Navigation Skills Executor(浏览器导航技能执行器):执行由Browser Navigation Agent建议的功能,并将响应返回给Browser Navigation Agent。

2 工作流程和运行模式

1.工作流程

  • 任务分解:Planner Agent接收用户任务后将其分解成多个子任务。
  • 子任务分配:Planner Agent将分解后的子任务分配给Browser Navigation Agent。
  • DOM感知与操作:Browser Navigation Agent使用DOM提炼能力感知网页,并确定下一步的操作。
  • 反馈循环:Browser Navigation Agent执行操作并向Planner Agent报告任务的执行结果。
  • 迭代执行:这个过程反复进行直到任务完成。

2.运行模式

  • Autonomous Mode(自主模式):Agent-E独立完成整个任务。
  • Human-in-the-Loop Mode(人机协作模式):当Agent-E遇到无法解决的问题(如登录页面或解决验证码)或任务本身不明确需要澄清时,它会向用户求助。

3 结语

文章介绍了Agent-E,一种具有新颖架构的网络智能体,它通过引入层次化设计、DOM提炼与降噪技术以及变化观察机制,在WebVoyager基准测试中表现出色,并从中总结出了一套适用于高效智能体系统的设计原则。

论文题目:Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems

论文链接:  https://arxiv.org/abs/2407.13032


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

从自主 Web 导航到智能体系统中的基本设计原则_工作流程_02

精彩回顾

1.  Internet of Agents: 异构代理网络

 2. 大语言模型的视频推理分割--ViLLa

3 获得权威认证:人工智能从业人员证书颁发