性价比高的AI助手与思维知识图-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/147077237

Maciej Besta Lorenzo Paleari Jia Hao Andrea Jiang Robert Gerstenberger You Wu Patrick Iff Ales Kubicek Piotr Nyczyk Diana Khimey Jón Gunnar Hannesson Grzegorz Kwaśniewski Marcin Copik Hubert Niewiadomski Torsten Hoefler

摘要

大型语言模型（LLMs）正在革新能够跨领域执行多样化任务的AI助手开发。然而，当前最先进的LLM驱动型代理面临着重大挑战，包括高昂的运营成本和在复杂基准测试如GAIA上的成功率有限。为了解决这些问题，我们提出了思维知识图（KGoT），一种创新的AI助手架构，将LLM推理与动态构建的知识图谱（KGs）集成在一起。KGoT将任务相关知识提取并结构化为动态KG表示，并通过数学求解器、网络爬虫和Python脚本等外部工具迭代增强。这种任务相关知识的结构化表示使低成本模型能够有效解决复杂任务。例如，与使用GPT-4o mini的Hugging Face Agents相比，KGoT在GAIA基准测试中的任务成功率提高了29%，同时运营成本降低了超过36倍。对于最近的推理模型，改进类似，例如Qwen2.5-32B和Deepseek-R1-70B分别提高了36%和37.5%。KGoT为AI助手提供了可扩展、经济实惠且高性能的解决方案。

引言
大型语言模型（LLMs）正在改变世界。然而，训练LLMs既昂贵又耗时且资源密集。为了使更多人能够访问生成式AI，过去两年中代理系统领域发生了巨大变化（LangChain Inc., 2024; Rush, 2023; Kim et al., 2024; Sumers et al., 2024; Hong et al., 2024; Guo et al., 2024; Edge et al., 2024; Besta et al., 2025b; Zhuge et al., 2024b; Beurer-Kellner et al., 2024;
Shinn et al., 2023; Kagaya et al., 2024; Zhao et al., 2024a; Stengel-Eskin et al., 2024; Wu et al., 2024）。这些方案已被应用于推理（Creswell et al., 2023; Bhattacharjya et al., 2024; Besta et al., 2025b）、规划（Wang et al., 2023c; Prasad et al., 2024; Shen et al., 2023; Huang et al., 2023）、软件开发（Tang et al., 2024）以及其他许多任务（Xie et al., 2024; Schick et al., 2023; Beurer-Kellner et al., 2023）。
LLM代理最具影响力的应用之一是开发能够帮助完成各种任务的AI助手。这些助手有望成为多功能工具，提升各领域的生产力和决策能力。从帮助研究人员解决复杂问题到管理个人日常任务，AI助手正逐渐成为现代生活中不可或缺的一部分。开发此类系统具有高度相关性，但在设计既有效又经济可行的解决方案方面仍面临挑战。
GAIA基准测试（Mialon et al., 2024）已成为评估LLM驱动代理架构作为通用AI助手功能的标准。该基准严格测试这些系统在不同任务（涉及网页导航、代码执行、图像推理、科学问答和多模态任务）中的表现，提供其能力的明确衡量标准。然而，尽管自其引入一年多以来，GAIA上的顶尖解决方案仍无法完成许多任务。此外，操作这些系统的成本高得令人望而却步。例如，使用Hugging Face Agents（Roucher & Petrov, 2024）和GPT-4o执行验证集中的所有任务需要花费大约$200，这表明需要更经济高效的替代方案。虽然部署较小的模型如GPT-4o mini可以显著降低成本，但会导致任务成功率大幅下降，使其成为一个不充分的解决方案。另外，当使用开源模型时，维护大模型的基础设施成本高昂，通常对普通用户来说是不可行的；小的开源模型需要廉价的硬件但能力较弱。
为了解决这些挑战，我们提出了思维知识图（KGoT），这是一种新颖的AI助手架构，

图1. 思维知识图（KGoT）背后的关键理念示意图：将AI助手的任务表示形式从文本转换为知识图（KG）。作为一个例子，我们使用了来自GAIA基准测试的第三级（即最高难度）任务。为了解决任务，KGoT通过添加相关信息来发展这个KG，从而将任务逐步推进至完成。这是通过迭代运行各种工具实现的。最后，通过从KG中提取相关信息来解决任务，例如使用图查询或以KG作为输入提示的一部分进行LLM推理。图1展示了思维知识图（KGoT）背后的关键理念：将AI助手的任务表示从文本形式转化为知识图（KG）。例如，我们使用了来自GAIA基准测试的第三级（即最高难度）任务。为了解决任务，KGoT通过添加相关信息来发展这个KG，从而将任务逐步推进至完成。这是通过迭代运行各种工具实现的。最后，通过从KG中提取相关信息来解决任务，例如使用图查询，或者以KG作为输入提示的一部分进行LLM推理。
贡献 #1 的核心创新在于KGoT使用知识图（KG）（Singhal, 2012; Besta et al., 2024b）提取并结构化与给定任务相关的知识。KG将信息组织成三元组，提供一个结构化的知识表示，小型、经济高效的模型可以高效处理。因此，KGoT“将无结构转化为有结构”，即将常常无结构的数据（如网站内容或PDF文件）转化为结构化的KG三元组。这种方法增强了对任务需求的理解，使即使是较小的模型也能以较低的成本达到与较大模型相当的性能水平。
KGoT架构（贡献 #2）通过从任务陈述中迭代构造KG并根据需要结合工具收集相关信息来实现这一概念。所构建的KG存储在图存储中，作为结构化知识的仓库。一旦收集到足够的信息，LLM尝试通过直接嵌入KG到其上下文中或向图存储查询特定见解来解决问题。这种方法确保LLM在一个丰富且结构化的知识库上运行，改善其任务解决能力，而不产生与大型模型相关的高额成本。该架构是模块化的，并可扩展到不同类型的图查询语言和工具。
我们针对顶级GAIA排行榜基线的评估展示了其有效性和效率（贡献 #3）。KGoT解决了比Hugging Face Agents使用GPT-4o mini多出两倍以上的验证集任务。此外，利用较小的模型极大地降低了运营成本。具体来说，使用GPT-4o mini而不是GPT-4o，KGoT将任务执行成本从$187降低到大约$5。此外，KGoT通过将推理外化到显式的知识图而非仅依赖LLM的内部生成，减少了偏差并提高了公平性。这确保了解决任务的关键步骤基于透明和可审计的信息。这突显了KGoT在开发跨多种任务具有高性能的经济实惠AI助手方面的潜力。

思维知识图
我们首先说明关键理念，即使用知识图来结构化编码任务内容。图1展示了一个示例任务及其对应的演进KG。
2.1. 什么是知识图？
知识图（KG）是一种结构化信息表示方法，它将知识组织成基于图格式的形式，允许高效查询、推理和检索。正式地，一个KG由一组三元组组成，其中每个三元组表示两个实体（主语）和（宾语）之间的关系通过谓词。例如，三元组(“Earth”, “orbits”, “Sun”)捕捉了地球绕太阳运行的事实。
数学上，知识图可以定义为一个有向标记图，其中是顶点（实体）的集合，是边（关系）的集合，是分配给边的标签（谓词）的集合。每个实体或谓词可能进一步包含属性或特性，从而实现更丰富的表示。知识图广泛应用于搜索引擎、推荐系统和AI推理等领域，因为它们促进了高效存储和复杂查询。
[^0] [^0]: KGoT代码将很快在线提供 ### 2.2. 利用KG进行有效的任务解析
KGoT的核心过程是将任务解决方案状态转化为不断演化的KG。任务的KG表示是从LLM在增强KG的迭代过程中生成的“思维”构建的。这些“思维”是由LLM在解决问题时识别出的中间见解。每个思维都通过添加新的顶点、边或属性来细化或扩展KG，这些新信息代表了新知识。
例如，考虑以下来自GAIA基准测试的第三级（即最高难度）任务：“在2018年3月发布的由《指环王》中咕噜的声音演员配音的YouTube 360 VR视频中，叙述者在视频中首次出现恐龙后立即提到的数字是什么？”（见图1）。这里，任务解决方案状态的KG表示有一个顶点“Gollum (LotR)”。然后，“《指环王》中的Gollum由Andy Serkis诠释”的思维导致添加一个“Andy Serkis”的顶点，并通过谓词“interpreted by”将“Gollum (LotR)”链接到“Andy Serkis”。这种思维生成与KG构建的整合创建了一个反馈循环，随着任务的进展，KG持续演化，使表示与问题要求保持一致。
为了演进任务的KG表示，KGoT与工具交互并检索更多信息。例如，系统可能会查询互联网以识别由Andy Serkis配音的视频（例如，“The Silmarillion”和“We Are Stars”）。它还可以使用YouTube转录工具找到它们的发布日期，向图中添加新顶点和边。中间结果，如视频类型或比较，被重新纳入图中，创建一个更完整和结构化的任务表示。
这种迭代细化允许KG在每一步建模任务的当前“状态”，使其更接近完成。系统的动态性质使其能够通过实时交互调整图的结构和内容，以应对各种任务。例如，多步骤推理任务，如从不同来源合成数据或执行计算，通过添加相关子图或根据最新检索到的信息更新现有顶点来处理。一旦KG被充分填充了特定于任务的知识，它就成为解决问题的强大资源。
2.3. 从KG中提取信息
为了适应不同的性能要求和任务，KGoT支持从KG中提取信息的不同方式。目前，我们提供图查询语言或通用语言；每种都可以与所谓的直接检索相结合。
图查询语言首先，为了解决任务，可以使用LLM准备的图查询，在Cypher（Francis et al., 2018）或SPARQL（Pérez et al., 2009）等语言中提取任务的答案。此功能特别适合需要从KG中检索特定子图、关系或模式的任务。
通用语言另一种从KG中提取所需信息的方法是使用LLM准备的通用编程语言（如Python）脚本。尽管在诸如模式匹配等工作负载上不如查询语言有效，但此方法提供了更大的灵活性，并且在任务需要例如遍历图中的长路径时可能优于后者。
直接检索在某些情况下，一旦足够多的信息被汇集到KG中，直接将KG粘贴到LLM上下文中并询问LLM解决问题可能更为有效，而不是准备专用的查询或脚本。我们将这种方法称为直接检索。
准确性-成本-运行时间权衡上述三种方案在准确率、成本和运行时间之间进行了权衡。例如，当低延迟是首要任务时，应使用通用语言及其相应的框架（如NetworkX），因为它们提供了一种轻量级的KG表示，并提供了快速访问和修改图数据的能力。当令牌成本最重要时，应避免直接检索（因为它会消耗许多令牌，因为它直接将KG嵌入到LLM上下文中），而应专注于查询或通用语言，优先选择前者，因为根据我们的经验，生成的查询往往比脚本短。最后，当目标是尽可能多地解决问题时，应该尝试所有三种方案——正如评估部分所示，这些方法具有互补的优势——直接检索适用于广泛的上下文理解，而图查询和脚本更适合结构化推理。
系统架构
如图2所示，KGoT系统被设计为一个模块化且灵活的框架，包含三个主要组件：图存储模块、控制器和集成工具，每个组件都在任务解决过程中扮演着关键角色。下面，我们详细描述每个组件及其在系统中的作用。
3.1. 图存储模块用于维护KG
KGoT系统的一个关键组件是图存储模块，它负责管理动态演化的知识图的存储和检索，该知识图表示

图2. KGoT架构概述（上半部分）及结合工作流程的设计细节（下半部分）。任务状态。为了利用图查询，我们使用图数据库后端；在当前的KGoT实现中，它是Neo4j（Robinson等人，2015），这是一个成熟的图数据库（Besta等人，2023c;b;d）。我们在分析文献后选择了Cypher和Neo4j，因为文献指出基于LLM的SPARQL查询生成存在局限性（Emonet等人，2024；Mecharnia和d’Aquin，2025）。然后，为了支持使用通用语言进行图访问，KGoT利用了NetworkX库（NetworkX Developers，2024）和Python。请注意，KGoT的可扩展设计使得任何其他后端和语言都能无缝集成。
3.2. 控制器用于工作流管理
控制器是KGoT系统的中央协调器，负责管理知识图与集成工具之间的交互。当用户提交查询时，控制器通过解释任务并协调所需的步骤来启动推理过程。它根据KG的当前状态和任务的具体要求动态确定调用哪些工具。随着工具生成结果，控制器将这些输出整合回KG中，更新其结构以反映新知识。
KGoT控制器采用双LLM架构，清晰地分离了构建（由LLM Graph Executor管理）和与工具交互（由LLM Tool Executor管理）的角色。
LLM Graph Executor在每次迭代后确定下一步骤，构建并演进KG。它识别出解决任务所需的所有缺失信息，制定适当的查询以与图存储后端交互（检索/插入操作），并解析中间或最终结果以整合到KG中。它还通过综合所有先前步骤的输出和KG的内容来准备最终响应给用户。
LLM Tool Executor作为LLM Graph Executor制定的计划的执行者。它识别出最适合检索缺失信息的工具，考虑到工具可用性、相关性以及前次工具调用尝试的结果等因素。例如，如果网络爬虫未能检索到某些数据，LLM Tool Executor可能会优先选择不同的检索机制或调整其查询。LLM Tool Executor管理工具执行过程，包括与API交互、执行计算或提取信息，并将结果返回给LLM Graph Executor以进一步推理并将结果整合到KG中。
3.3. 集成工具用于演进KG
KGoT系统中的集成工具模块提供了一套分层且多样化的专业工具，每个工具都专门针对特定任务需求。基础部分是Python代码工具，能够生成和执行复杂的计算和算法任务代码。代码工具也用于解决数学步骤。补充控制器的推理，LLM工具集成了额外的语言模型，以提供超出控制器LLM限制范围的扩展知识，确保稳健推理的同时最小化幻觉风险。对于多模态任务，图像工具促进图像处理和信息提取。基于Hugging Face Agents（Roucher & Petrov, 2024）的设计，网络操作由Surfer Agent处理，通过像Wikipedia工具和粒度导航工具（如PageUp、PageDown、Find）等工具与网络互动，同时利用SerpApi（SerpApi LLM, 2025）进行有效搜索。其他功能包括用于处理压缩存档的ExtractZip工具和从MP3文件、YouTube字幕和各种格式中提取并转换文本为Markdown的Text Inspector工具。这种模块化层次结构确保了在解决广泛复杂任务时的灵活性、可扩展性和适应性。
3.4. 高性能与可扩展性
KGoT使用各种优化来增强可扩展性和性能。它们包括（1）使用asyncio（Python Software Foundation, 2025b）进行异步执行以并行化LLM工具调用，缓解I/O瓶颈并减少空闲时间，（2）通过重写LLM生成的Cypher查询以允许图数据库中独立操作的并发执行来实现图操作并行化，以及（3）基于MPI的分布式处理，使用工作窃取算法将工作负载分解为分布在各个等级的原子任务，以确保平衡的计算负载和可扩展性。
3.5. 带多数投票的系统健壮性
为了增强健壮性，所采用的关键策略之一是使用多数投票，也称为自我一致性（Wang et al., 2023b）；使用基于嵌入的方法等其他策略也是可能的（Besta et al., 2024d）。在KGoT中，多数投票通过在决定下一步是否插入更多数据到知识图或检索现有数据、决定使用哪个工具以及解析最终解决方案时多次查询LLM来实现。这种方法减少了KGoT架构各个部分中单实例错误或不一致的影响，确保所做的决策反映了LLM最一致的推理路径。
3.6. 分层错误包含与管理
为了管理LLM生成的语法错误，KGoT包含了LangChain的JSON解析器，用于检测语法问题。当检测到语法错误时，系统首先尝试通过使用不同的编码器（如“unicode escape”（Python Software Foundation, 2025a））调整有问题的语法来纠正它。如果问题仍然存在，KGoT采用默认三次尝试的重试机制，使用LLM重新措辞查询/命令并尝试重新生成其输出。如果错误仍然存在，系统将其记录下来以供进一步分析，跳过有问题的查询并继续其他迭代。
为了管理API及相关错误，如OpenAI代码500，主要采用的策略是指数退避，通过tenacity库（Tenacity Developers, 2024）实现。此外，KGoT还包括全面的日志系统作为其错误管理框架的一部分。这些系统跟踪系统操作期间遇到的错误，提供易于解析和分析的有价值数据（例如，知识图的快照或第三方API的响应）。
Python Executor工具是系统的一个关键组件，容器化以确保安全执行LLM生成的代码。此工具设计为在严格超时和保护下运行代码，防止潜在误用或资源过度消耗。
3.7. 实现细节
使用Docker和Sarus进行容器化 KGoT系统使用Docker（Docker Inc., 2024）和Sarus（Benedicic等人，2019）进行容器化，为所有组件提供一致且隔离的运行时环境。我们对关键模块进行了容器化，例如KGoT控制器、Neo4j知识图和集成工具（例如，用于安全运行带有超时的LLM生成代码的Python Executor工具）。在这里，Docker提供了一个广泛采用的容器化平台，保证开发和生产环境之间的一致性。Sarus是一个专为高性能计算（HPC）环境设计的容器平台，它扩展了KGoT在HPC设置中的可移植性，因为在HPC环境中通常由于安全约束而无法使用Docker。这种集成使KGoT能够在HPC环境中高效运行，利用其计算能力。
通过LangChain实现适应性 KGoT系统利用LangChain（LangChain Inc., 2024），这是一个专门为创建和编排LLM驱动应用而设计的开源平台。LangChain提供了一整套工具和API，简化了管理LLM的复杂性，包括提示工程、工具集成和LLM输出的协调。

系统工作流程
我们在图2的底部部分展示了工作流程。工作流程开始于用户向系统提交一个问题（1）。第一步是验证是否已达到解决问题的最大允许迭代次数（2）。如果超过了迭代限制，系统将不再尝试收集额外信息并将其插入KG，而是返回KG中现有数据的解决方案（3）。否则，多数投票（来自LLM的多个回复）决定系统是通过增强路径（使用工具生成新知识）还是直接进入解决路径（收集KG中的现有知识并使用它来提供任务解决方案）。
增强路径如果多数投票指示增强路径，则下一步是确定完成增强操作所需的工具（4）。系统然后根据KG状态协调适当的工具调用（5）。一旦收集到所需的工具数据，系统生成增强查询或查询以适当修改KG（6）。每个增强查询被执行并且其输出被验证。如果返回错误或无效值，系统尝试使用解码器或LLM修复查询，并重试指定次数。如果重试失败，查询被丢弃，操作继续进行。经过增强操作处理后，系统增加迭代计数并继续直到KG得到充分扩展或达到迭代限制。这条路径确保知识图被充实以相关和准确的信息，使系统能有效地朝着解决方案前进。
解决路径如果多数投票引导系统进入解决路径，系统迭代执行多个解决操作（7）。如果执行连续三次产生无效值或错误，系统要求LLM 尝试通过重新创建使用的查询来纠正问题。然后重新执行查询。如果在三次重试后错误仍然存在，查询将完全重新生成，忽略错误结果，并重新开始过程。解决操作返回结果后，进行最终解析，包括可能的数学处理以解决潜在计算（8）并完善输出（例如，适当格式化结果）（9）。
评估
我们现在展示KGoT相对于现有技术的优势。我们重点关注GAIA，因为这是目前最全面的通用AI助手基准，涵盖了诸如网页导航、代码执行、图像推理、科学问答和多模态任务等多个领域。
比较基线我们重点放在Hugging Face（HF）Agents上，这是GAIA基准中最具竞争力的方案，适用于最难的第3级任务，并使用GPT-4类模型。我们还将与零样本方案进行比较，其中模型在没有任何额外代理框架的情况下回答问题。
KGoT变体首先，我们改变知识提取的方法（图查询与通用语言，参见第2.3节）。对于每种选项，我们改变解决操作的执行方式，要么让LLM向后端发送请求（用于NetworkX的Python脚本和用于Neo4j的Cypher查询），要么直接让LLM根据KG推断答案，我们称之为直接检索（DR）。我们还考虑“融合”运行，模拟同时拥有两种图后端的KGoT运行效果（或为每项任务同时利用两种解决操作变体）。融合运行仅产生微不足道的额外存储开销，因为生成的KG很小（最多几百个节点）。最后，我们实验了不同的工具集。为了专注于利用KG带来的差异，我们重用了AutoGen（Wu et al., 2024）中的几个实用工具，如浏览器和MDConverter，以及HF Agents中的工具，如Surfer Agent、网页浏览工具和文本检查器。
考虑的指标我们主要关注解决任务的数量以及令牌成本（$）。除非另有说明，由于预算原因，我们报告单次运行结果。
考虑的数据集我们使用GAIA基准测试（Mialon et al., 2024）；出于预算原因，我们专注于验证集（165个任务），并且它附带了真实答案。
可扩展性我们验证了选择Neo4j作为图查询后端并不是瓶颈（大多数时间花在工具使用上，最重要的是网页浏览和文本解析）。此外，由于有效的知识提取过程和所考虑任务的性质

图3. 不同KGoT变体与Hugging Face Agents和零样本GPT-4o mini和GPT-4o的比较。DR代表直接检索。除非另有说明，使用的模型是GPT-4o mini。（即，AI辅助），没有任务需要大型KG。我们观察到的最大图大小为522个节点。这远低于任何可扩展性担忧的级别。
5.1. KGoT的优势
图3显示了不同KGoT变体（上述解释）以及三个基线（使用GPT-4o mini和GPT-4o的HF Agents，以及零样本GPT-4o mini和GPT-4o）解决的任务数量（左侧）以及每解决一项任务的平均成本（右侧）。此外，我们在图4中展示了多维优化问题的帕累托前沿，即提高准确性（即减少失败任务）和降低成本。所有KGoT变体解决的任务数量都比HF Agents更多（多达9个），同时成本也更加经济（降低42%到62%）。KGoT优势的关键在于利用基于知识图表示的动态任务状态。
理想情况下的Neo4j和NetworkX融合运行解决了更多的任务（均为57个）比单一运行更多，而且平均成本更低（比Hugging Face Agents低至68%）。所有后端和求解器类型的组合融合将解决最多的任务（71个）——比Hugging Face Agents高出两倍以上，同时表现出每解决一个查询最低的平均成本（比Hugging Face Agents低近72%）。
直接零样本使用GPT-4o mini和GPT-4o具有最低的每解决任务平均成本（分别为$0.0013和$0.0164），使其成为最具成本效益的选择，然而这种方法只能解决17和29个任务，分别。

图4. 成本和错误计数的帕累托前沿图。我们报告了使用GPT-4o mini模型回答165个GAIA验证问题在不同比较目标下的结果。对于零样本推理，我们还包括GPT-4o的结果进行对比。DR意味着直接检索。
5.2. 各种设计决策的影响
我们还分析了各种设计决策的影响。我们探索了两种不同的图处理知识提取方法：图查询（使用Cypher和Neo4j）和通用语言（使用基于Python的图操作和NetworkX），各有独特优势。图查询和Neo4j在结构化查询方面表现出色，例如统计模式。然而，对于节点和边较多的图，正确生成Cypher查询可能较为困难。Python和NetworkX通过消除对单独数据库服务器的需求，提供了一种轻量级的选择，使其成为KG的轻便选择。此外，NetworkX计算对于中小型图而言快速且高效，无需数据库事务的开销。与需要编写Cypher查询的Neo4j不同，我们观察到在Neo4j实现遇到困难的情况下，NetworkX生成的图往往更详细，提供了更丰富的顶点属性和关系。这可能是由于Python代码在图插入方面比Cypher查询更具灵活性，从而对顶点属性和关系提供更精细的控制。另一个原因可能是所用模型在Python方面比Cypher查询更有技能。
我们还比较了直接检索（DR）和使用图查询或通用语言解决问题的区别。深入分析表明，每种方法都有其独特的优缺点，这在后端融合的表现中得到了体现。我们对失败任务的分析表明，在许多情况下，知识图包含所需数据，但图查询未能提取它。在这种情况下，直接检索（整个图包含在模型上下文中）表现显著更好。这是因为它绕过了查询组合问题。然而，在需要结构化、多步推理的情况下，直接检索的准确性较低。
我们还发现直接检索擅长提取分散的信息，但在结构化查询方面表现不佳，而图查询在结构化推理方面更有效，但当LLM生成不正确的查询公式时可能会失败。尽管Cypher和通用查询偶尔会有错误，但由于Python脚本通常较长且更容易出错，因此需要更频繁的修正。然而，尽管修正次数较多，LLM能够比修正Cypher查询更容易地修正Python代码，通常一次尝试即可成功。在检索过程中，LLM经常直接在Python脚本中嵌入必要的计算，同时通过注释标注其推理过程，提高了透明度和可解释性。
我们还探索了不同的工具集，选定结果如表1所示。最初，我们考察了原始工具的局限性，随后将完整的Hugging Face Agents工具集集成到KGoT框架中，从而提高了准确性、运行时间和成本效率。详细分析使我们能够将最有效的组件从两套工具集中合并成一个优化的混合工具集，进一步提高准确性和运行时间，同时适度增加成本。关键改进包括ExtractZip工具和Text Inspector工具之间的紧密集成，现在支持Markdown，以及对Surfer Agent的增强，包括加入Wikipedia工具并增强视点分割的全页摘要。这个优化的工具集用于所有后续实验。
我们在KGoT的初始迭代中进一步评估了不同的提示格式。虽然我们的主要格式是基于XML的，但我们还使用Markdown进行了额外测试。初步实验显示，结合Markdown和GPT-4o mini的Hugging Face Agents工具集提高了准确性，减少了运行时间并降低了成本。然而，这些结果并未在GPT-4o上始终可重现。此外，基于Markdown的提示干扰了诸如直接检索之类的优化，最终促使我们保留基于XML的格式。
我们还分析了KGoT在不同开放模型上的优势，详见图5。KGoT对几乎所有的考虑模型（Guo等人，2025）都比HF Agents具有明显优势。有趣的是，某些规模的DeepSeek-R1在零样本性能上超过了KGoT和HF Agents，显示出在特定针对推理语言模型（RLMs）改进的潜力（Besta等人，2025a;b）。
最后，我们调查了使用KG与完全不使用KG（“no KG”基线）对性能的影响，详见图6。使用KG具有明显优势，解决了任务的数量最多增加了近两倍。这证实了将任务相关知识结构化为图格式的积极影响。

相关工作
我们的工作与众多LLM领域相关。首先，我们使用LangChain（LangChain Inc., 2024）来促进LLM代理与其他KGoT系统的集成。其他类似的LLM集成框架，如MiniChain（Rush, 2023）或AutoChain（Forethought, 2023），也可以代替使用。
代理协作框架是诸如MetaGPT（Hong等人，2024）、AutoAgents（Chen等人，2024）和许多其他系统（Zhuge等人，2024b；Tang

图5. 使用不同LLM模型在GAIA验证集上的KGoT（非融合）性能。对于KGoT，我们使用Cypher图查询从Neo4j图数据库中提取知识。等人，2024；Liu等人，2024b；Li等人，2024；Chu等人，2024；Wu等人，2024；Shinn等人，2023；Zhu等人，2024b；Kagaya等人，2024；Zhao等人，2024a；Stengel-Eskin等人，2024；Significant Gravitas，2025；Zhu等人，2024a）。核心KGoT思想可以应用于增强这样的框架，即KG也可以作为多个代理共同解决任务的公共共享任务表示。这样一个图将由不止一个代理更新。注意，KGoT在GAIA验证集中超越了高度竞争的HF Agents基线，这意味着它提供了比其他框架更有效的代理推理。
许多作品存在于通用提示工程领域（Beurer-Kellner等人，2024；Besta等人，2025b；Yao等人，2023a；Besta等人，2024a；Wei等人，2022；Yao等人，2023b；Chen等人，2023；Creswell等人，2023；Wang等人，2023a；Hu等人，2024；Dua等人，2022；Jung等人，2022；Ye等人，2023）。可以使用此类方案进一步增强KGoT工作流的各个部分。虽然我们已经使用适合编码知识图的提示，但可能利用该领域其他想法可以带来进一步的好处。

图6. 使用不同知识提取方法（Neo4j和Cypher的图查询，以及Python和NetworkX的通用语言）与完全不使用KG的对比，使用知识图（KG）的影响。DR代表直接检索。模型：GPT-4o mini。
任务分解与规划通过将任务划分为子任务来提高LLM的有效性。例子包括ADaPT（Prasad等人，2024）、ANPL（Huang等人，2023）和其他（Zhu等人，2024a；Shen等人，2023）。总体而言，整个KGoT工作流已经利用了递归任务分解：输入任务被划分为多个步骤，必要时LLM代理会进一步将许多这些步骤分解为子步骤。例如，在基于已构建的KG解决问题时，LLM代理可能会决定类似于ADaPT的方式分解此步骤。也可以尝试其他分解方案，我们将其留作未来工作。
检索增强生成（RAG）是LLM生态系统的重要组成部分，提出了许多设计方案（Edge等人，2024；Gao等人，2024；Besta等人，2024c；Zhao等人，2024b；Hu & Lu，2024；Huang & Huang，2024；Yu等人，2024a；Mialon等人，2023；Li等人，2022；Abdallah & Jatowt，2024；Delile等人，2024；Manathunga & Illangasekara，2023；Zeng等人，2024；Wewer等人，2021；Xu等人，2024；Sarthi等人，2024；Asai等人，2024；Yu等人，2024b）。RAG主要用于确保数据隐私和减少幻觉。使用RAG是一个正交的设计选择；它可以与KGoT结合以获得进一步的好处。
图增强代理协作框架有一些工作使用图来进行更有效的协作。例子包括GPTSwarm（Zhuge等人，2024a）、MacNet（Qian等人，2024）和AgentPrune（Zhang等人，2024）。这些系统与KGoT不同之处在于它们使用图来建模和管理多个代理，形成工具的层次结构。相反，KGoT使用知识图来表示任务本身，包括其中间状态。这两种设计选择是正交的，可以结合起来。此外，虽然许多这些系统需要训练，KGoT只依赖于情境学习。
另一个日益重要的LLM生态系统部分是使用工具来增强LLM的能力（Beurer-Kellner等人，2023；Schick等人，2023；Xie等人，2024）。例如，ToolNet（Liu等人，2024a）使用有向图来建模在解决任务时应用多个工具的过程，但特别关注工具的迭代大规模使用。KGoT利用了一个灵活且可扩展的工具层级结构，可以轻松扩展，以解决各种复杂任务。

结论

本文中，我们介绍了思维知识图（KGoT），这是一种AI助手架构，它增强了低成本模型的推理能力，同时显著降低了运营费用。通过动态构建和演进编码任务及其解决状态的知识图（KG），KGoT实现了结构化知识表示和检索，提高了在复杂基准测试如GAIA上的任务成功率。我们的广泛评估表明，KGoT超越了现有的LLM驱动代理解决方案，在具有竞争力的Hugging Face Agents基线上实现了至少29%或更多的任务解决效率提升，同时确保了非常低的运营成本。

除了当前实现之外，KGoT提供了一个灵活且可扩展的AI助手开发框架，具有在自动化研究、数据驱动决策和多模态推理等多样化领域应用的潜力。未来工作可以探索将KGoT与更多外部工具集成或与高级图预测方案结合以实现更稳健的KG构建（Besta等人，2023a；2024e），整合其他类别的图存储后端如神经图数据库（Besta等人，2022）将KGoT扩展到分布式内存集群（Blach等人，2024），或通过适应更高级的任务分解方案来完善其推理策略。

致谢

感谢Hussein Harake、Colin McMurtrie、Mark Klein、Angelo Mangili以及整个CSCS团队提供对Ault和Daint机器的访问权限，并提供卓越的技术支持。感谢SPCL的Timo Schneider在基础设施方面的帮助。本项目得到了欧洲研究委员会（PSAP项目，编号101002047）和欧洲高性能计算联合企业（JU）根据协议编号955513（MAELSTROM项目）的资助。本项目得到了ETH未来计算实验室（EFCL）的支持，该实验室由华为技术公司捐赠资助。本项目还得到了欧盟地平线研究与创新计划的资助，协议编号为101070141（GLACIATION项目）。我们衷心感谢波兰高性能计算基础设施PLGrid（HPC中心：ACK Cyfronet AGH）提供的计算机设施和支持，计算资助编号为PLG/2024/017103。

参考文献

Abdallah, A. 和 Jatowt, A. 生成-检索-生成方法用于开放领域问答，2024年3月。URL https://arxiv.org/abs/2307.11278. arXiv:2307.11278.

Asai, A., Wu, Z., Wang, Y., Sil, A., 和 Hajishirzi, H. 自我反思学习检索、生成和批评：Self-RAG。第十二届国际学习表示会议论文集，ICLR ’24，奥地利维也纳，2024年5月。URL https://openreview.net/forum?id=hSyW5go0v8.

Benedicic, L., Cruz, F. A., Madonna, A., 和 Mariotti, K. Sarus：适用于高性能计算系统的高度可扩展Docker容器。Weiland, M., Juckeland, G., Alam, S., 和 Jagode, H. (eds.), 高性能计算，pp. 46-60。Springer出版社，2019年12月。ISBN 978-3-030-34356-9。doi: 10.1007/978-3-030-34356-9_5. URL https://link.springer.com/chapter/10.1007/978-3-030-34356-9_5.

Besta, M., Iff, P., Scheidl, F., Osawa, K., Dryden, N., Podstawski, M., Chen, T., 和 Hoefler, T. 神经图数据库。Rieck, B. 和 Pascanu, R. (eds.), 第一届图学习会议论文集，机器学习研究进展系列第198卷，pp. 31:1-31:38，虚拟活动，2022年12月。PMLR。URL https://proceedings.mlr.press/v198/besta22a.html.

Besta, M., Catarino, A. C., Gianinazzi, L., Blach, N., Nyczyk, P., Niewiadomski, H., 和 Hoefler, T. HOT：高效的高阶动态图表示学习转换器。Villar, S. 和 Chamberlain, B. (eds.), 第二届图学习会议论文集，机器学习研究进展系列第231卷，pp. 15:1-15:20，虚拟活动，2023年11月。PMLR。URL https://proceedings.mlr.press/v231/besta24a.html.

Besta, M., Gerstenberger, R., Blach, N., Fischer, M., 和 Hoefler, T. GDI：图数据库接口标准。技术报告，苏黎世联邦理工学院，2023b。可在 http s://spcl.inf.ethz.ch/Research/Parallel_Programming/GDI/ 查看。

Besta, M., Gerstenberger, R., Fischer, M., Podstawski, M., Blach, N., Egeli, B., Mitenkov, G., Chlapek, W., Michalewicz, M., Niewiadomski, H., et al. 图数据库接口：将在线事务性和分析性图工作负载扩展到数十万个核心。在高性能计算、网络、存储和分析国际会议论文集，SC ’23，pp. 22:1-22:18, 科罗拉多州丹佛市，美国，2023年11月。Association for Computing Machinery出版社。ISBN 9798400701092。doi: 10.1145/3581784.3607068。URL https://doi.org/10.1145/3581784.3607068。

Besta, M., Gerstenberger, R., Peter, E., Fischer, M., Podstawski, M., Barthels, C., Alonso, G., 和 Hoefler, T. 揭秘图数据库：数据组织、系统设计和图查询的分析与分类。ACM Comput. Surv., 56(2), 2023年9月。ISSN 0360-0300。doi: 10.1145/3604932。URL https://doi.org/10.1145/3604932。

Besta, M., Blach, N., Kubicek, A., Gerstenberger, R., Podstawski, M., Gianinazzi, L., Gajda, J., Lehmann, T., Niewiadomski, H., Nyczyk, P., 和 Hoefler, T. 思维图：用大型语言模型解决复杂问题。AAAI人工智能会议论文集，38(16):17682-17690, 2024年3月。doi: 10.1609/aaai.v38i16.29720。URL https://ojs.aaai.org/index.php/AAAI/article/view/29720。

Besta, M., Gerstenberger, R., Iff, P., Sonawane, P., Luna, J. G., Kanakagiri, R., Min, R., Mutlu, O., Hoefler, T., Appuswamy, R., et al. 知识图处理硬件加速：挑战与最新发展，2024年11月。URL https://arxiv.org/abs/2408.12173。arXiv:2408.12173。

Besta, M., Kubicek, A., Niggli, R., Gerstenberger, R., Weitzendorf, L., Chi, M., Iff, P., Gajda, J., Nyczyk, P., Müller, J., et al. 多头RAG：用LLM解决多方面问题，2024年11月。URL https://arxiv.org/abs/2406.05085。arXiv:2406.05085。

Besta, M., Paleari, L., Kubicek, A., Nyczyk, P., Gerstenberger, R., Iff, P., Lehmann, T., Niewiadomski, H., 和 Hoefler, T. CheckEmbed：有效验证LLM对开放式任务的解决方案，2024年6月。URL https://arxiv.org/abs/2406.02524。arXiv:2406.02524。

Besta, M., Scheidl, F., Gianinazzi, L., Kwaśniewski, G., Klaiman, S., Müller, J., 和 Hoefler, T. 揭示高阶图神经网络的奥秘，2024年12月。URL https://arxiv.org/abs/2406.12841。arXiv:2406.12841。

Besta, M., Barth, J., Schreiber, E., Kubicek, A., Catarino, A., Gerstenberger, R., Nyczyk, P., Iff, P., Li, Y., Houliston, S., et al. 推理语言模型：蓝图，2025年1月。URL https://arxiv.org/abs/2501.11223。arXiv:2501.11223。

Besta, M., Memedi, F., Zhang, Z., Gerstenberger, R., Piao, G., Blach, N., Nyczyk, P., Copik, M., Kwaśniewski, G., Müller, J., Gianinazzi, L., Kubicek, A., Niewiadomski, H., O’Mahony, A., Mutlu, O., 和 Hoefler, T. 揭示思维链、树和图的奥秘，2025年2月。URL https://arxiv.org/abs/2401.14295。arXiv:2401.14295。

Beurer-Kellner, L., Fischer, M., 和 Vechev, M. 大型语言模型是零样本多工具用户。在ICML Workshop on Knowledge and Logical Reasoning in the Era of Data-Driven Learning, KLR ’23, 美国夏威夷州檀香山，2023年7月。

Beurer-Kellner, L., Müller, M. N., Fischer, M., 和 Vechev, M. 大型语言模型提示草图。在第41届国际机器学习会议（ICML ’24）论文集，机器学习研究进展系列第235卷，pp. 3674-3706，奥地利维也纳，2024年7月。PMLR。URL https://proceedings.mlr.press/v235/beurer-kellner24b.html。

Bhattacharjya, D., Lee, J., Agravante, D. J., Ganesan, B., 和 Marinescu, R. 基础模型向导：通过知识和推理引导基础模型，2024年2月。URL https://arxiv.org/abs/2402.01602。arXiv:2402.01602。

Blach, N., Besta, M., De Sensi, D., Domke, J., Harake, H., Li, S., Iff, P., Konieczny, M., Lakhotia, K., Kubicek, A., et al. Slim Fly网络的高性能设计、实现、部署与评估。在第21届USENIX网络系统设计与实现研讨会论文集，NSDI ’24，pp. 1025-1044，加利福尼亚州圣克拉拉，美国，2024年4月。USENIX Association。ISBN 978-1-939133-39-7。URL https://www.usenix.org/conference/nsdi24/presentation/blach。

Chen, G., Dong, S., Shu, Y., Zhang, G., Sesay, J., Karlsson, B. F., Fu, J., 和 Shi, Y. AutoAgents：自动代理生成框架。在Larson, K. (ed.), 第三十三届国际人工智能联合会议论文集，IJCAI ’24，pp. 22-30，韩国济州岛，2024年8月。International Joint Conferences on Artificial Intelligence Organization。doi: 10.24963/ijcai.2024/3。URL https://www.ijcai.org/proceedings/2024/3。 Chen, W., Ma, X., Wang, X., 和 Cohen, W. W. 思维程序提示：分离计算与推理以进行数值推理任务。机器学习研究交易，2023年11月。ISSN 28358856。URL https://openreview.net/forum ?id=Yf242Pt8zd。

Chu, Z., Wang, Y., Zhu, F., Yu, L., Li, L., 和 Gu, J. 专业代理 - 将大语言模型进化为具有人类水平能力的自主专家，2024年2月。URL https://arxiv.org/abs/2402.03628。arXiv:2402.03628。

Creswell, A., Shanahan, M., 和 Higgins, I. SelectionInference：利用大型语言模型进行可解释的逻辑推理。在第十一届国际学习表示会议论文集，ICLR ’23，卢旺达基古利，2023年5月。OpenReview。URL https://openreview.net/forum?id=3Pf3Wg6o-A4。

Delile, J., Mukherjee, S., Pamel, A. V., 和 Zhukov, L. 基于图的检索器捕捉生物医学知识的长尾部分。在Workshop ML for Life and Material Science: From Theory to Industry Applications论文集，ML4LMS ’24，奥地利维也纳，2024年7月。URL https://openreview.net/forum?id=RUwfsPWrv3。

Docker Inc. Docker: 加速容器应用。https://www.docker.com/, 2024年12月。2025年1月27日访问。

Dua, D., Gupta, S., Singh, S., 和 Gardner, M. 逐步提示以分解复杂问题。在Goldberg, Y., Kozareva, Z., 和 Zhang, Y. (eds.), 第2022届经验方法自然语言处理会议论文集，EMNLP ’22，pp. 1251-1265，阿拉伯联合酋长国阿布扎比，2022年12月。计算语言学协会。doi: 10.18653/v1/2022.emnlp-main.81。URL https://aclanthology.org/2022.emnlp-main.81/。

Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., Truitt, S., 和 Larson, J. 从局部到全局：一种面向查询摘要的图RAG方法，2024年4月。URL https://arxiv.org/abs/2404.16130。arXiv:2404.16130。

Emonet, V., Bolleman, J., Duvaud, S., de Farias, T. M., 和 Sima, A. C. 基于LLM的SPARQL查询生成方法在联邦知识图上的自然语言处理。arXiv预印本arXiv:2410.06062, 2024。

Forethought. AutoChain. https://autochain.forethought.ai/, 2023年。2025年1月27日访问。

Francis, N., Green, A., Guagliardo, P., Libkin, L., Lindaaker, T., Marsault, V., Plantikow, S., Rydberg, M., Selmer, P., 和 Taylor, A. Cypher：一个不断发展的属性图查询语言。在管理数据国际会议论文集，SIGMOD ’18，pp. 1433-1445，德克萨斯州休斯顿，美国，2018年。计算机械学会。ISBN 9781450347037。doi: 10.1145/3183713.3190657。URL https://doi.org/10.1145/3183713.3190657。

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., 和 Wang, H. 大型语言模型的检索增强生成：综述，2024年3月。URL https://arxiv.org/abs/2312.10997。arXiv:2312.10997。

Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., et al. DeepSeek R1：通过强化学习激励大型语言模型的推理能力，2025年1月。URL https://arxiv.org/abs/2501.12948。arXiv:2501.12948。

Guo, T., Chen, X., Wang, Y., Chang, R., Pei, S., Chawla, N. V., Wiest, O., 和 Zhang, X. 基于大型语言模型的多智能体：进展与挑战综述。在Larson, K. (ed.), 第三十三届国际人工智能联合会议论文集，IJCAI ’24，pp. 8048-8057，韩国济州岛，2024年8月。International Joint Conferences on Artificial Intelligence Organization。doi: 10.24963/ijcai.2024/890。URL https://www.ijcai.org/proceedings/2024/890。调查轨道。

Hong, S., Zhuge, M., Chen, J., Zheng, X., Cheng, Y., Wang, J., Zhang, C., Wang, Z., Yau, S. K. S., Lin, Z., Zhou, L., Ran, C., Xiao, L., Wu, C., 和 Schmidhuber, J. MetaGPT：多智能体协作框架的元编程。在第十二届国际学习表示会议论文集，ICLR ’24，奥地利维也纳，2024年5月。OpenReview。URL https://openreview.net/forum?id=VtmBAGCN7o。

Hu, H., Lu, H., Zhang, H., Lam, W., 和 Zhang, Y. 符号链提示法引出大型语言模型中的规划，2024年8月。URL https://arxiv.org/abs/2305.10276。arXiv:2305.10276。

Hu, Y. 和 Lu, Y. RAG和RAU：自然语言处理中检索增强语言模型的综述，2024年4月。URL https://arxiv.org/abs/2404.19543。arXiv:2404.19543。

Huang, D., Nan, Z., Hu, X., Jin, P., Peng, S., Wen, Y., Zhang, R., Du, Z., Guo, Q., Pu, Y., 和 Chen, Y. ANPL：迈向交互式分解的自然编程。在Oh, A., Naumann, T., Globerson, A., Saenko, K., Hardt, M., 和 Levine, S. (eds.), 第三十七届年度神经信息处理系统会议论文集（NeurIPS ’23），神经信息处理系统进展系列第36卷，pp. 69404-69440，路易斯安那州新奥尔良，美国，2023年12月。Curran Associates。URL https://proceedings.neurips.cc/paper_files/paper/2023/hash/dba8fa689ede9e56cbOd4f719def38fb-Abstract-Conference.html。

Huang, Y. 和 Huang, J. 检索增强文本生成的大规模语言模型综述，2024年8月。URL https://arxiv.org/abs/2404.10981。arXiv:2404.10981。

Jung, J., Qin, L., Welleck, S., Brahman, F., Bhagavatula, C., Le Bras, R., 和 Choi, Y. 助产士提示法：具有递归解释的逻辑一致性推理。在Goldberg, Y., Kozareva, Z., 和 Zhang, Y. (eds.), 第2022届经验方法自然语言处理会议论文集，EMNLP ’22，pp. 1266-1279，阿拉伯联合酋长国阿布扎比，2022年12月。计算语言学协会。doi: 10.18653/v1/2022.emnlp-main.82。URL https://aclanthology.org/2022.emnlp-main.82/。

Kagaya, T., Yuan, T. J., Lou, Y., Karlekar, J., Pranata, S., Kinose, A., Oguri, K., Wick, F., 和 You, Y. RAP：具有上下文记忆的检索增强多模态LLM代理规划。在开放世界代理研讨会论文集，OWA ’24，加拿大温哥华，2024年12月。OpenReview。URL https://openreview.net/forum?id=Xf49Dpxuox。

Kim, S., Moon, S., Tabrizi, R., Lee, N., Mahoney, M. W., Keutzer, K., 和 Gholami, A. LLM编译器用于并行函数调用。在Salakhutdinov, R., Kolter, Z., Heller, K., Weller, A., Oliver, N., Scarlett, J., 和 Berkenkamp, F. (eds.), 第41届国际机器学习会议论文集（ICML ’24），机器学习研究进展系列第235卷，pp. 24370-24391，奥地利维也纳，2024年7月。PMLR。URL https://proceedings.mlr.press/v235/kim24y.html。

LangChain Inc. LangChain. https://www.langchain.com/, 2024年。2025年1月27日访问。

Li, H., Su, Y., Cai, D., Wang, Y., 和 Liu, L. 检索增强文本生成综述，2022年2月。URL https://arxiv.org/abs/2202.01110。arXiv:2202.01110。

Li, J., Zhang, Q., Yu, Y., Fu, Q., 和 Ye, D. 更多智能体就是你所需要的。机器学习研究交易，2024年。ISSN 2835-8856。URL https://openreview.net/forum?id=bgzUSZ8aeg。

Liu, X., Peng, Z., Yi, X., Xie, X., Xiang, L., Liu, Y., 和 Xu, D. ToolNet：通过工具图连接大规模语言模型与大量工具，2024年2月。URL https://arxiv.org/abs/2403.00839。arXiv:2403.00839。

Liu, Z., Zhang, Y., Li, P., Liu, Y., 和 Yang, D. 动态LLM驱动的代理网络用于面向任务的代理协作。在第一届语言建模会议论文集，COLM ’24，宾夕法尼亚州费城，美国，2024年10月。OpenReview。URL https://openreview.net/forum?id=XII0Wp1XA9。

Manathunga, S. S. 和 Illangasekara, Y. A. 医学教育中大规模非结构化文本数据的检索增强生成与代表向量摘要，2023年8月。URL https://arxiv.org/abs/2308.00479。arXiv:2308.00479。

Mecharnia, T. 和 d’Aquin, M. 微调LLM在SPARQL查询生成中的性能与局限性。在生成式AI与知识图谱研讨会论文集（GenAIK），pp. 69-77，2025年。

Mialon, G., Dessi, R., Lomeli, M., Nalmpantis, C., Pasunuru, R., Raileanu, R., Roziere, B., Schick, T., Dwivedi-Yu, J., Celikyilmaz, A., Grave, E., LeCun, Y., 和 Scialom, T. 增强语言模型：综述。机器学习研究交易，2023年。ISSN 2835-8856。URL https://openreview.net/forum?id=jh7wH2AzKK。调查认证。

Mialon, G., Fourrier, C., Wolf, T., LeCun, Y., 和 Scialom, T. GAIA：通用AI助手基准测试。在第十二届国际学习表示会议论文集，ICLR ’24，奥地利维也纳，2024年5月。OpenReview。URL https://openreview.net/forum?id=fibxvahvs3。

NetworkX Developers. NetworkX文档。https://networkx.org/, 2024年10月。2025年1月27日访问。

Pérez, J., Arenas, M., 和 Gutierrez, C. SPARQL的语义与复杂性。ACM数据库系统事务（TODS），34(3):1-45, 2009年。

Prasad, A., Koller, A., Hartmann, M., Clark, P., Sabharwal, A., Bansal, M., 和 Khot, T. ADaPT：按需分解与使用语言模型规划。在Duh, K., Gomez, H., 和 Bethard, S. (eds.), 计算语言学协会发现：NAACL 2024，pp. 4226-4252，墨西哥城，墨西哥，2024年6月。计算语言学协会。doi: 10.18653/v1/2024.findings-naacl.264。URL https://aclanthology.org/2024.findings-naacl.264/。 Python Software Foundation. Python标准库：codecs - 编码注册表和基类。https://docs.python.org/3/library/codecs.html, 2025年1月a。2025年1月27日访问。

Python Software Foundation. Python标准库：asyncio - 异步I/O。https://docs.python.org/3/library/asyncio.html, 2025年1月b。2025年1月29日访问。

Qian, C., Xie, Z., Wang, Y., Liu, W., Dang, Y., Du, Z., Chen, W., Yang, C., Liu, Z., 和 Sun, M. 扩展基于大规模语言模型的多智能体协作。arXiv预印本arXiv:2406.07155, 2024年。

Robinson, I., Webber, J., 和 Eifrem, E. 图数据库内部原理。在《图数据库》一书，第7章，pp. 149-170。O’Reilly出版社，第二版，2015年。ISBN 9781491930892。

Roucher, A. 和 Petrov, S. 使用Transformer智能体击败GAIA。https://github.com/aymeric-roucher/GAIA, 2024年10月。2025年1月29日访问。

Rush, A. MiniChain：一个用于编码大型语言模型的小型库。在Feng, Y. 和 Lefever, E. (eds.), 第2023届经验方法自然语言处理会议论文集：系统演示，EMNLP ’23，pp. 311-317，新加坡，2023年12月。计算语言学协会。doi: 10.18653/v1/2023.emnlp-demo.27。URL https://aclanthology.org/2023.emnlp-demo.27。

Sarthi, P., Abdullah, S., Tuli, A., Khanna, S., Goldie, A., 和 Manning, C. D. RAPTOR：递归抽象处理以实现树组织检索。在第十二届国际学习表示会议论文集，ICLR ’24，奥地利维也纳，2024年5月。URL https://openreview.net/forum?id=GN921JHCRw。

Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Hambro, E., Zettlemoyer, L., Cancedda, N., 和 Scialom, T. 工具形成者：语言模型可以自学如何使用工具。在Oh, A., Naumann, T., Globerson, A., Saenko, K., Hardt, M., 和 Levine, S. (eds.), 第三十七届年度神经信息处理系统会议论文集（NeurIPS ’23），神经信息处理系统进展系列第36卷，pp. 68539-68551，路易斯安那州新奥尔良，美国，2023年12月。Curran Associates出版社。URL https://proceedings.neurips.cc/paper files/paper/2023/hash/d842425e4bf79ba039352da0f658a906-Abstract-Conference.html。

SerpApi LLM. SerpApi：Google搜索API。https://serpapi.com/, 2025年。2025年1月27日访问。

Shen, Y., Song, K., Tan, X., Li, D., Lu, W., 和 Zhuang, Y. HuggingGPT：使用ChatGPT及其Hugging Face中的朋友解决AI任务。在Oh, A., Naumann, T., Globerson, A., Saenko, K., Hardt, M., 和 Levine, S. (eds.), 第三十七届年度神经信息处理系统会议论文集（NeurIPS ’23），神经信息处理系统进展系列第36卷，pp. 38154-38180，路易斯安那州新奥尔良，美国，2023年12月。Curran Associates出版社。URL https://proceedings.neurips.cc/paper_files/paper/2023/hash/77c33e6a367922d003ff102ffb92b658-Abstract-Conference.html。

Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., 和 Yao, S. Reflexion：具有口头强化学习的语言代理。在Oh, A., Naumann, T., Globerson, A., Saenko, K., Hardt, M., 和 Levine, S. (eds.), 第三十七届年度神经信息处理系统会议论文集（NeurIPS ’23），神经信息处理系统进展系列第36卷，pp. 8634-8652，路易斯安那州新奥尔良，美国，2023年12月。Curran Associates出版社。URL https://proceedings.neurips.cc/paper_files/paper/2023/hash/1b44b878bb782e6954cd888628510e90-Abstract-Conference.html。

Significant Gravitas. AutoGPT。https://github.com/Significant-Gravitas/AutoGPT, 2025年1月。2025年1月27日访问。

Singhal, A. 介绍知识图谱：事物而非字符串。https://www.blog.google/products/search/introducing-knowledge-graph-things-not/, 2012年5月。2025年2月4日访问。

Stengel-Eskin, E., Prasad, A., 和 Bansal, M. ReGAL：重构程序以发现可泛化的抽象。在Salakhutdinov, R., Kolter, Z., Heller, K., Weller, A., Oliver, N., Scarlett, J., 和 Berkenkamp, F. (eds.), 第41届国际机器学习会议论文集（ICML ’24），机器学习研究进展系列第235卷，pp. 4660546624，奥地利维也纳，2024年7月。PMLR。URL https://proceedings.mlr.press/v235/stengel-eskin24a.html。

Sumers, T., Yao, S., Narasimhan, K., 和 Griffiths, T. 语言代理的认知架构。机器学习研究交易，2024年2月。ISSN 2835-8856。URL https://openreview.net/forum?id=li62CvflQJ。调查认证。

Tang, X., Kim, K., Song, Y., Lothritz, C., Li, B., Ezzini, S., Tian, H., Klein, J., 和 Bissyandé, T. F. CodeAgent：用于代码审查的自主通信代理。在Al-Onaizan, Y., Bansal, M., 和 Chen, Y.-N. (eds.), 2024年经验方法自然语言处理会议论文集，EMNLP ’24，pp. 11279-11313，佛罗里达州迈阿密，美国，2024年11月。计算语言学协会。doi: 10.18653/v1/2024.emnlp-main.632。URL https://aclanthology.org/2024.emnlp-main.632/。

Tenacity Developers. Tenacity：重试库。https://github.com/jd/tenacity, 2024年7月。2025年1月27日访问。

Wang, S., Liu, C., Zheng, Z., Qi, S., Chen, S., Yang, Q., Zhao, A., Wang, C., Song, S., 和 Huang, G. Avalon的思想游戏：通过递归思考对抗欺骗，2023年10月a。URL https://arxiv.org/abs/2310.01320。arXiv:2310.01320。

Wang, X., Wei, J., Schuurmans, D., Le, Q. V., Chi, E. H., Narang, S., Chowdhery, A., 和 Zhou, D. 思维链提示法引出大型语言模型中的推理。在第十一届国际学习表示会议论文集，ICLR ’23，卢旺达基加利，2023年5月b。URL https://openreview.net/forum?id=1PL1NIMMrw。

Wang, Z., Cai, S., Chen, G., Liu, A., Ma, X. S., 和 Liang, Y. 描述、解释、计划和选择：使用LLM进行交互式规划使开放世界多任务代理成为可能。在Oh, A., Naumann, T., Globerson, A., Saenko, K., Hardt, M., 和 Levine, S. (eds.), 第三十七届年度神经信息处理系统会议论文集（NeurIPS ’23），神经信息处理系统进展系列第36卷，pp. 34153-34189，路易斯安那州新奥尔良，美国，2023年12月c。Curran Associates出版社。URL https://proceedings.neurips.cc/paper_files/paper/2023/hash/6b8dfb8c0c12e6fafc6c256cb08a5ca7-Abstract-Conference.html。

Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q. V., 和 Zhou, D. 思维链提示法引出大型语言模型中的推理。在Koyejo, S., Mohamed, S., Agarwal, A., Belgrave, D., Cho, K., 和 Oh, A. (eds.), 第三十六届年度神经信息处理系统会议论文集（NeurIPS ’22），神经信息处理系统进展系列第35卷，pp. 24824-24837，路易斯安那州新奥尔良，美国，2022年12月。Curran Associates出版社。URL https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html。

Wewer, C., Lemmerich, F., 和 Cochez, M. 更新动态知识图的嵌入，2021年9月 URL https://arxiv.org/abs/2109.10896. arXiv:2109.10896.

Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., Jiang, L., Zhang, X., Zhang, S., Liu, J., Awadallah, A. H., White, R. W., Burger, D., 和 Wang, C. AutoGen：通过多智能体对话实现下一代LLM应用。在第一届语言建模会议论文集，COLM ’24，宾夕法尼亚州费城，美国，2024年10月。OpenReview。URL https://openreview.net/forum?id=BAakY1hNKS.

Xie, T., Zhou, F., Cheng, Z., Shi, P., Weng, L., Liu, Y., Hua, T. J., Zhao, J., Liu, Q., Liu, C., Liu, Z., Xu, Y., Su, H., Shin, D., Xiong, C., 和 Yu, T. OpenAgents：一个开放的野外语言代理平台。在第一届语言建模会议论文集，COLM ’24，宾夕法尼亚州费城，美国，2024年10月。OpenReview。URL https://openreview.net/forum?id=sKATR2O1Y0.

Xu, Z., Liu, Z., Yan, Y., Wang, S., Yu, S., Zeng, Z., Xiao, C., Liu, Z., Yu, G., 和 Xiong, C. ActiveRAG：通过检索增强型代理自主进行知识同化和适应，2024年10月。URL https://arxiv.org/abs/2402.13547. arXiv:2402.13547.

Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., 和 Narasimhan, K. 思维树：使用大规模语言模型进行深思熟虑的问题解决。在Oh, A., Naumann, T., Globerson, A., Saenko, K., Hardt, M., 和 Levine, S. (eds.), 第三十七届年度神经信息处理系统会议论文集（NeurIPS ’23），神经信息处理系统进展系列第36卷，pp. 11809-11822，路易斯安那州新奥尔良，美国，2023年12月a。Curran Associates出版社。URL https://proceedings.neurips.cc/paper_files/paper/2023/hash/271db9922b8d1f4dd7aaef84ed5ac703-Abstract-Conference.html.

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., 和 Cao, Y. ReAct：在语言模型中协同推理与行动。在第十一届国际学习表示会议论文集，ICLR ’23，卢旺达基加利，2023年5月b。URL https://openreview.net/forum?id=WE_v1uYUL-X.

Ye, Y., Hui, B., Yang, M., Li, B., Huang, F., 和 Li, Y. 大规模语言模型是多功能分解器：为基于表格的推理分解证据和问题。在第46届ACM SIGIR国际信息检索研究与发展会议论文集，SIGIR ’23，pp. 174-184，台湾台北，2023年7月。计算机械学会。ISBN 9781450394086。doi: 10.1145/3539618.3591708。URL https://doi.org/10.1145/3539618.3591708.

Yu, H., Gan, A., Zhang, K., Tong, S., Liu, Q., 和 Liu, Z. 检索增强生成评估：综述。在Zhu, W., Xiong, H., Cheng, X., Cui, L., Dou, Z., Dong, J., Pang, S., Wang, L., Kong, L., 和 Chen, Z. (eds.), 第十二届CCF大会论文集，BigData，计算机与信息科学交流系列第2301卷，pp. 102-120，中国青岛，2024年8月a。Springer出版社。ISBN 978-981-96-1024-2。doi: 10.1007/978-981-96-1024-2_8。URL https://link.springer.com/chapter/10.1007/978-981-96-1024-2_8.

Yu, W., Zhang, H., Pan, X., Cao, P., Ma, K., Li, J., Wang, H., 和 Yu, D. 笔记链：增强检索增强语言模型的鲁棒性。在Al-Onaizan, Y., Bansal, M., 和 Chen, Y.-N. (eds.), 2024年经验方法自然语言处理会议论文集，EMNLP ’24，pp. 14672-14685，佛罗里达州迈阿密，美国，2024年11月b。计算语言学协会。doi: 10.18653/v1/2024.emnlp-main.813。URL https://aclanthology.org/2024.emnlp-main.813/.

Zeng, H., Yue, Z., Jiang, Q., 和 Wang, D. 联邦推荐通过混合检索增强生成。在Ding, W., Lu, C.-T., Wang, F., Di, L., Wu, K., Huan, J., Nambiar, R., Li, J., Ilievski, F., Baeza-Yates, R., 和 Hu, X. (eds.), IEEE国际大数据会议论文集，BigData ’24，pp. 8078-8087，华盛顿特区，美国，2024年12月。doi: 10.1109/BigData62323.2024.10825302。URL https://ieeexplore.ieee.org/document/10825302.

Zhang, G., Yue, Y., Li, Z., Yun, S., Wan, G., Wang, K., Cheng, D., Yu, J. X., 和 Chen, T. 删繁就简：一种经济高效的LLM多智能体系统通信管道。arXiv预印本arXiv:2410.02506, 2024.

Zhao, A., Huang, D., Xu, Q., Lin, M., Liu, Y.-J., 和 Huang, G. ExpeL：LLM智能体是经验学习者。AAAI人工智能会议论文集，38(17):19632-19642, 2024年3月。doi: 10.1609/aaai.v38i17.29936。URL https://ojs.aaa1.org/index.php/AAAI/article/view/29936.

Zhao, P., Zhang, H., Yu, Q., Wang, Z., Geng, Y., Fu, F., Yang, L., Zhang, W., Jiang, J., 和 Cui, B. 检索增强生成用于AI生成内容：综述，2024年6月b。URL https://arxiv.org/abs/2402.19473。arXiv:2402.19473.

Zhu, Y., Qiao, S., Ou, Y., Deng, S., Zhang, N., Lyu, S., Shen, Y., Liang, L., Gu, J., 和 Chen, H. 知识增强型规划用于基于LLM的智能体，2024年3月a。URL https://arxiv.org/abs/2403.03101。arXiv:2403.03101.

Zhu, Z., Xue, Y., Chen, X., Zhou, D., Tang, J., Schuurmans, D., 和 Dai, H. 大型语言模型可以学习规则，2024年12月b。URL https://arxiv.org/abs/2310.07064。arXiv:2310.07064.

Zhuge, M., Wang, W., Kirsch, L., Faccio, F., Khizbullin, D., 和 Schmidhuber, J. Gptswarm：作为可优化图的语言智能体。第四十一届国际机器学习会议，2024a.

Zhuge, M., Wang, W., Kirsch, L., Faccio, F., Khizbullin, D., 和 Schmidhuber, J. GPTSwarm：作为可优化图的语言智能体。在Salakhutdinov, R., Kolter, Z., Heller, K., Weller, A., Oliver, N., Scarlett, J., 和 Berkenkamp, F. (eds.), 第四十一届国际机器学习会议论文集（ICML ’24），机器学习研究进展系列第235卷，pp. 62743-62767，奥地利维也纳，2024年7月。PMLR。URL https://proceedings.mlr.press/v235/zhuge24a.html.