LLMs之Benchmark/Multi-Agent:《WebWalker: Benchmarking LLMs in Web Traversal》翻译与解读
导读:这篇论文提出了一个名为 WebWalkerQA 的基准测试,用于评估大型语言模型 (LLM) 在网页遍历方面的能力,并提出了一种名为 WebWalker 的多智能体框架来应对这一挑战。 研究结果表明,现有的 RAG系统在处理需要多步交互和深层信息挖掘的任务时仍然存在局限性,而结合垂直探索的 WebWalker 框架可以有效地提高 LLM 在网页信息检索方面的性能。 该工作为构建更强大和可扩展的基于 LLM 的信息检索系统提供了重要的参考。
>> 背景痛点:
● 现有 RAG 系统的局限性:传统的检索增强生成 (RAG) 系统依赖于传统的搜索引擎,这些引擎通常只进行浅层内容检索,无法有效处理网站中深层嵌套的复杂信息。 LLM 难以处理需要多层网页交互才能获取信息的复杂问题。 现有的基于 HTML 的指令-动作基准测试(如 Mind2Web 和 WebArena)存在信息噪声大、输入过长等问题,限制了 LLM 的性能。
● 网页遍历任务的复杂性:现实世界中,许多信息隐藏在网页的深处,需要进行多步交互才能获取。 这需要 LLM 具备强大的推理和规划能力,而现有的基准测试和方法难以充分评估这种能力。
>> 具体的解决方案:WebWalkerQA 和 WebWalker
● WebWalkerQA 基准测试:这是一个用于评估 LLM 网页遍历能力的基准测试。它包含 680 个来自四个真实场景(会议、组织、教育和游戏)的查询,涵盖了 1373 多个网页,包含单源和多源两种类型的 QA 对,并根据信息深度和来源数量划分难度等级。数据收集采用了两阶段漏斗式标注策略,结合了 LLM 和人工标注。
● WebWalker 多智能体框架:这是一个用于模拟人类网页浏览行为的框架,由探索者智能体和评论者智能体组成。探索者智能体基于 ReAct 框架,采用“思考-行动-观察”范式,通过点击网页上的按钮来探索子页面。评论者智能体负责维护内存,并在积累足够信息后生成答案。
>> 核心思路步骤:
● 数据收集:采用两阶段漏斗式标注,先用 GPT-4 生成初始标注,再由人工进行质量控制和过滤。 数据包含单源和多源两种类型的 QA 对,模拟不同的人类信息搜索行为。
● WebWalker 框架设计:设计了探索者智能体和评论者智能体,分别负责网页遍历和信息整合。探索者智能体利用 ReAct 框架进行“思考-行动-观察”,评论者智能体维护内存并生成答案。
● 实验评估:在 WebWalkerQA 基准测试上评估了 WebWalker 以及 ReAct 和 Reflexion 等基准方法的性能,使用了多种 LLM 作为骨干模型。 评估指标包括准确率和成功执行的行动次数。
● RAG 系统集成:将 WebWalker 与 RAG 系统集成,以增强 RAG 系统获取深层信息的能力。
>> 优势:
● 更具挑战性的基准测试:WebWalkerQA 比现有的基准测试更具挑战性,因为它更全面地模拟了真实世界中复杂的多步网页交互场景。
● 更有效的网页遍历框架:WebWalker 框架通过多智能体协作,有效地管理内存并提高了信息获取效率。
● 垂直探索的有效性:实验结果表明,在信息搜索任务中,垂直探索网页比单纯的水平搜索更有效。
>> 论文结论和观点:
● WebWalkerQA 是一个有效的基准测试,可以有效地评估 LLM 的网页遍历能力。
● WebWalker 框架在网页遍历任务中表现出色,优于 ReAct 和 Reflexion 等基准方法。
● 将 RAG 与 WebWalker 相结合可以显著提高网页导航性能,特别是对于需要多步交互的任务。
● 垂直探索网页是提高 RAG 系统性能的一个有前景的方向。
● 论文也指出了数据集大小、多模态环境和智能体调优等方面的局限性,并提出了未来的研究方向,例如将 WebWalker 与 RAG 系统更好地集成,以及利用多模态信息。
目录
《WebWalker: Benchmarking LLMs in Web Traversal》翻译与解读
《WebWalker: Benchmarking LLMs in Web Traversal》翻译与解读
地址 | 论文地址:[2501.07572] WebWalker: Benchmarking LLMs in Web Traversal |
时间 | 2025年1月13日 |
作者 | Alibaba 通义团队 |
Abstract
Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios. | 检索增强生成(RAG)在开放领域问答任务中表现出色。然而,传统搜索引擎可能检索到浅层内容,限制了大型语言模型处理复杂、多层次信息的能力。为解决这一问题,我们推出了 WebWalkerQA,这是一个用于评估大型语言模型执行网页遍历能力的基准测试。它评估大型语言模型系统地遍历网站子页面以提取高质量数据的能力。我们提出了 WebWalker,这是一个多智能体框架,通过探索-批评范式模拟人类般的网页导航。大量实验结果表明,WebWalkerQA 具有挑战性,并展示了 RAG 与 WebWalker 结合在现实场景中的水平和垂直集成的有效性。 |
Figure 1: A multi-source QA1example from Web-WalkerQA that requires traversing web pages to gather information for answering the given question.
1、Introduction
Large Language Models (LLMs) have demon-strated impressive capabilities across a wide range of natural language processing tasks (Ouyang et al., 2022; OpenAI, 2022b). While their knowledge base remains static post-training, integrating exter-nal search engines via retrieval-augmented gener-ation (RAG) allows LLMs to retrieve up-to-date information from the web, enhancing their utility in dynamic, knowledge-intensive scenarios (Lewis et al., 2020). However, traditional online search engines, e.g., Google or Bing, perform horizontal searches of queries and may not effectively trace the deeper content embedded within websites. Interacting with the web pages and digging through them can effectively address this is-sue. Previous works related to web pages fo-cus on addressing action-based requests, such as Mind2Web (Deng et al., 2023) and We-bArena (Zhou et al., 2024a); these HTML-based instruction-action benchmarks face challenges such as excessively noisy information and overly long inputs, which can significantly hinder performance due to limitations in long-context understanding. Additionally, they fail to capture the complexities of real-world scenarios where relevant information is buried deep within web pages and requires mul-tiple layers of interaction. | 大型语言模型(LLMs)在广泛的自然语言处理任务中展现出了令人瞩目的能力(Ouyang 等人,2022 年;OpenAI,2022 年 b)。尽管它们在训练完成后知识库保持不变,但通过检索增强生成(RAG)与外部搜索引擎集成,LLMs 能够从网络上获取最新信息,从而在动态、知识密集型场景中提高其效用(Lewis 等人,2020 年)。然而,传统的在线搜索引擎,例如谷歌或必应,对查询进行横向搜索,可能无法有效地追踪网站中嵌入的更深层次的内容。 与网页进行交互并深入挖掘可以有效地解决这一问题。先前与网页相关的研究工作主要集中在处理基于动作的请求,例如 Mind2Web(Deng 等人,2023 年)和 WebArena(Zhou 等人,2024 年 a);这些基于 HTML 的指令-动作基准面临着诸如信息过于嘈杂和输入过长等挑战,这可能会因长上下文理解的局限性而显著影响性能。此外,它们无法捕捉到现实场景的复杂性,在这些场景中,相关信息深藏于网页之中,需要多层交互才能获取。 |
To fill this gap, a new task Web Traversal is proposed, given an initial website corresponding to a query, systematically traverses web pages to uncover information. We propose WebWalkerQA, designed specifically to evaluate LLMs on their ability to handle queries embedded in complex, multi-step web interactions on a given root web-site. WebWalkerQA focuses on text-based reason-ing abilities, using a Question-Answer format to evaluate traversal and problem-solving capabili-ties in web scenarios. We constrain actions to “click” to evaluate the agent’s navigation and information-seeking capabilities. This paradigm is more targeted and aligns better with practical applications. WebWalkerQA reflects real-world challenges, emphasizing the depth of the source information across education, conference, organi-zation, and game domains, where official sources are published and paths to information are more structured with clickable buttons and reasoning logic. Several types, including multi-source and single-source QAs, are developed to evaluate the ability of LLMs to mimic different human web-navigation paradigms. Additionally, we introduce a strong baseline WebWalker, a multi-agent framework designed to emulate human-like web navigation through ver-tical exploration. The framework consists of an ex-plorer agent and a critic agent. Given the need for reasoning capabilities to navigate and interact with web pages effectively, the explorer agent is built upon the ReAct framework (Yao et al.), leveraging a thought-action-observation paradigm, while the critic agent is responsible for maintaining mem-ory and generating responses based on the explo-ration conducted by the explorer agent. We eval-uate the performance of the WebWalker, built on various mainstream LLMs, including both closed-source and open-sourced, using WebWalkerQA as the benchmark. However, even with the most pow-erful LLMs as the backbone, its performance on WebWalkerQA remains suboptimal, thereby vali-dating the challenge posed by WebWalkerQA. | 为填补这一空白,我们提出了一个新的任务——网页遍历(Web Traversal),即给定与查询相关的初始网站,系统地遍历网页以挖掘信息。我们提出了 WebWalkerQA,专门用于评估大型语言模型在给定根网站上处理嵌入在复杂、多步骤网页交互中的查询的能力。WebWalkerQA 侧重于基于文本的推理能力,采用问答格式来评估在网页场景中的遍历和问题解决能力。我们将操作限制为“点击”,以评估代理的导航和信息搜索能力。这种范式更具针对性,也更符合实际应用。WebWalkerQA 反映了现实世界的挑战,强调了教育、会议、组织和游戏等领域的信息源深度,这些领域中的官方来源发布的信息路径更结构化,具有可点击的按钮和推理逻辑。开发了多种类型的问题回答(QA),包括多源和单源 QA,以评估大型语言模型(LLMs)模仿不同人类网络浏览模式的能力。此外,我们引入了一个强大的基线 WebWalker,这是一个多智能体框架,旨在通过垂直探索模拟类似人类的网络浏览。该框架由一个探索者智能体和一个评论者智能体组成。鉴于有效浏览和与网页交互需要推理能力,探索者智能体基于 ReAct 框架(Yao 等人)构建,采用思维-行动-观察范式,而评论者智能体负责维护记忆并根据探索者智能体的探索生成响应。我们使用 WebWalkerQA 作为基准,评估了基于各种主流 LLM(包括闭源和开源)构建的 WebWalker 的性能。然而,即使使用最强大的 LLM 作为骨干,其在 WebWalkerQA 上的表现仍不尽人意,从而验证了 WebWalkerQA 所带来的挑战。 |
We then conduct further experiments to vali-date the integration with the RAG for information-seeking QA tasks. Our findings are as follows: (i) Web navigation still requires efforts in tasks that demand planning and reasoning; (ii) By combin-ing RAG with the WebWalker, this horizontal and vertical coordination proves effective; (iii) Vertical exploration of pages offers a promising direction for scaling inference time in RAG systems. The contributions of our work are as follows: ● We construct a challenging benchmark, Web-WalkerQA, which is composed of 680 queries from four real-world scenarios across over 1373 webpages. ● To tackle the challenge of web-navigation tasks requiring long context, we propose Web-Walker, which utilizes a multi-agent frame-work for effective memory management. ● Extensive experiments show that the Web-WalkerQA is challenging, and for information-seeking tasks, vertical exploration within the page proves to be beneficial. | 然后,我们进行了进一步的实验,以验证与 RAG 在信息检索 QA 任务中的集成。我们的研究结果如下:(一)在需要规划和推理的任务中,网络导航仍需努力;(二)通过将检索增强生成(RAG)与网络漫游者(WebWalker)相结合,这种横向和纵向的协调被证明是有效的;(三)对网页进行纵向探索为检索增强生成系统中推理时间的扩展提供了一个有前景的方向。 我们工作的贡献如下: ● 我们构建了一个具有挑战性的基准测试 Web-WalkerQA,它由来自四个真实场景的 680 个查询组成,涉及超过 1373 个网页。 ● 为了解决网络导航任务中需要长上下文的挑战,我们提出了网络漫游者(Web-Walker),它利用多智能体框架进行有效的内存管理。 ● 大量的实验表明,Web-WalkerQA 具有挑战性,并且对于信息检索任务而言,在页面内的纵向探索是有益的。 |
7、Conclusion
We introduce WebWalkerQA, a benchmark for eval-uating LLMs’ web traversal abilities in complex, multi-step information-seeking tasks. We also pro-posed WebWalker, a multi-agent framework that mimics human-like web navigation, combining ex-ploration and critique. Experiments show that Web-WalkerQA effectively challenges RAG systems, and combining RAG with WebWalker improves web navigation performance. Our work highlights the importance of deep, vertical exploration in web-based tasks, paving the way for more scal-able and reliable LLM-based information retrieval integrated with RAG. | 我们介绍了 WebWalkerQA,这是一个用于评估大型语言模型在复杂多步骤信息检索任务中的网络遍历能力的基准。我们还提出了 WebWalker,这是一个模仿人类网络浏览行为的多智能体框架,结合了探索和评估。实验表明,WebWalkerQA 能够有效挑战检索增强生成(RAG)系统,并且将 RAG 与 WebWalker 相结合能够提升网络浏览性能。我们的工作强调了在基于网络的任务中进行深度垂直探索的重要性,为更可扩展和可靠的基于大型语言模型的信息检索与 RAG 的集成铺平了道路。 |
Limitations and Discussion
We discuss the following limitations: Dataset Size: Due to the complexity of queries in the web-agent domain, similar to benchmarks such as AssistantBench (Yoran et al., 2024) (214) and MMIna (Zhang et al., 2024c) (1,050), GAIA (Mi-alon et al., 2024) (466), our proposed WebWalk-erQA currently comprises 680 high-quality QA pairs. Additionally, we possess a collection of ap-proximately 14k silver QA pairs, which, although not yet carefully human-verified, can serve as sup-plementary training data to enhance agent perfor-mance, leaving room for further exploration. Multimodal Environment: In this work, we only utilize HTML-DOM to parse clickable buttons. In fact, visual modalities, such as screenshots, can also assist and provide a more intuitive ap-proach (Nguyen et al., 2024; Zhang et al., 2024a; He et al., 2024b). We leave this for future work. Agent Tuning: WebWalker is driven by prompt-ing without additional training. We can use agent tuning to help LLMs learn web traversal. This in-volves fine-tuning models with golden trajectories, enabling them to take effective actions for complet-ing information-seeking tasks (Zeng et al., 2024; Chen et al., 2024b; Zhang et al., 2024b; Qiao et al., 2024; Zhu et al., 2024). | 我们讨论以下局限性: 数据集规模:由于网络代理领域中查询的复杂性,与 AssistantBench(Yoran 等人,2024)(214 个)、MMIna(Zhang 等人,2024c)(1050 个)和 GAIA(Mi-alon 等人,2024)(466 个)等基准类似,我们提出的 WebWalkerQA 目前包含 680 对高质量的问答对。此外,我们还拥有约 14000 对银质问答对,尽管这些数据尚未经过仔细的人工验证,但可以作为补充训练数据来提升代理性能,这为未来的研究留下了空间。 多模态环境:在本研究中,我们仅使用 HTML-DOM 来解析可点击按钮。实际上,视觉模态,如截图,也能提供帮助,并且能提供更直观的方法(Nguyen 等人,2024;Zhang 等人,2024a;He 等人,2024b)。我们将此留待未来研究。 代理调优:WebWalker 仅通过提示驱动,未进行额外训练。我们可以利用代理调优来帮助 LLM 学习网络遍历。这涉及使用黄金轨迹对模型进行微调,使它们能够采取有效行动来完成信息搜索任务(Zeng 等人,2024;与 RAG 系统更好地集成:在第 节中,为 WebWalker 提供了根 URL 以执行操作。 |
Better Integration with RAG Systems: In §, the root url is provided for the WebWalker to execute. To better integrate with the RAG system, one ap-proach could be to first rewrite the query within the RAG system to refine the search, directing it to the query’s official websites likely to contain relevant information. The WebWalker can then be used to extract useful information. Both the knowledge re-trieved from the RAG system and the information mined by the WebWalker can be combined as aug-mented retrieval knowledge for generation, leading to a better result. WebWalker can function independently as a web information retrieval assistant for a given web-page or seamlessly integrate with RAG systems to expand their scope. Under the agentic RAG paradigm, the click action proves to be highly effective. | 为了更好地与 RAG 系统集成,一种方法可以是首先在 RAG 系统内重写查询以优化搜索,将其导向可能包含相关信息的查询官方网站。然后可以使用 WebWalker 提取有用信息。从 RAG 系统检索的知识和 WebWalker 挖掘的信息可以结合起来作为增强的检索知识用于生成,从而获得更好的结果。 WebWalker 可以作为给定网页的独立网络信息检索助手运行,也可以无缝集成到 RAG 系统中以扩大其范围。在代理 RAG 模式下,点击操作被证明是非常有效的。 |