Agent-E是一种新型的网络智能体,它在自主网络导航方面实现了许多架构上的创新,包括层次化设计、灵活的文档对象模型(DOM)提炼与降噪技术,以及利用变化观察来指导智能体更准确地执行任务。Agent-E在WebVoyager基准数据集上的评估结果显示,它在大多数类别中超越了其他先进的文本和多模态网络智能体,性能提升了10%-30%。此外,作者还从Agent-E的开发经验中提炼出了若干一般性的设计原则,这些原则适用于开发高性能的智能体系统,涵盖了领域特定的基础技能应用、环境观察的提炼与去噪、层次化架构的优势,以及智能体自我改进机制等方面。
1 Agent-E的组成
- Planner Agent(规划智能体):负责任务的规划和管理,它会将用户的任务分解成一系列子任务,并依次分配给Browser Navigation Agent(浏览器导航智能体)。
- Browser Navigation Agent(浏览器导航智能体):负责执行各个子任务,它通过感知网页并使用不同的DOM(Document Object Model,文档对象模型)提炼能力来确定下一步的操作,并向Planner Agent报告任务成功与否。
- Planner Skills Executor(规划技能执行器):执行由Planner Agent建议的功能,并将响应返回给Planner Agent。
- Browser Navigation Skills Executor(浏览器导航技能执行器):执行由Browser Navigation Agent建议的功能,并将响应返回给Browser Navigation Agent。
2 工作流程和运行模式
1.工作流程
- 任务分解:Planner Agent接收用户任务后将其分解成多个子任务。
- 子任务分配:Planner Agent将分解后的子任务分配给Browser Navigation Agent。
- DOM感知与操作:Browser Navigation Agent使用DOM提炼能力感知网页,并确定下一步的操作。
- 反馈循环:Browser Navigation Agent执行操作并向Planner Agent报告任务的执行结果。
- 迭代执行:这个过程反复进行直到任务完成。
2.运行模式
- Autonomous Mode(自主模式):Agent-E独立完成整个任务。
- Human-in-the-Loop Mode(人机协作模式):当Agent-E遇到无法解决的问题(如登录页面或解决验证码)或任务本身不明确需要澄清时,它会向用户求助。
3 结语
文章介绍了Agent-E,一种具有新颖架构的网络智能体,它通过引入层次化设计、DOM提炼与降噪技术以及变化观察机制,在WebVoyager基准测试中表现出色,并从中总结出了一套适用于高效智能体系统的设计原则。
论文题目:Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems
论文链接: https://arxiv.org/abs/2407.13032
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!