论文 | GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Mod

1. 论文背景

长上下文处理是大型语言模型(LLMs)面临的重要挑战。尽管许多优化方法(例如改进位置编码或注意力机制)取得了一定进展,但现有方法在处理复杂任务和多跳推理方面仍存在不足,特别是“中间信息丢失”现象(lost in the middle)。本文提出了一种新型的基于图的代理系统——GraphReader,旨在通过图结构捕捉长文本中的全局信息和多跳关系,克服上下文窗口限制。


2. 方法概述

GraphReader通过以下三大步骤实现其目标:

  1. 图构建:将长文本分割为多个块,并提取每块的“关键元素”和“原子事实”,构建以关键元素为节点的图结构。
  2. 图探索:通过代理(Agent)依据预定义的合理计划,探索节点及其邻居节点,同时记录支持信息。
  3. 答案推理:基于从图中提取的信息,生成问题的最终答案。

3. 关键技术细节

3.1 图构建

  • 文本分块:将文档按照上下文窗口限制拆分为若干部分,同时保持段落结构。
  • 提取内容:
    • 原子事实(Atomic Facts):不可再分的最小事实单元。
    • 关键元素(Key Elements):抽取重要的名词、动词和形容词。
  • 图结构:以关键元素为节点,若一个关键元素出现在另一个节点的原子事实中,则建立边。

3.2 图探索 代理在探索图时主要执行以下功能:

  • 初始化:制定合理计划(Rational Plan),选择初始节点。
  • 探索原子事实:代理优先读取节点的原子事实,利用粗到细的策略判断是否需要进一步读取原始文本块。
  • 探索邻居节点:若当前节点未能提供足够信息,代理会跳转至邻居节点,继续探索。
  • 终止条件:当代理收集到足够的信息时,停止探索。

3.3 答案推理

  • 汇总来自多个代理的笔记,使用“链式推理”(Chain-of-Thought)方法进行分析,最终生成答案。

4. 实验与结果分析

4.1 数据集与评价指标

  • 数据集:包括HotpotQA、2WikiMultihopQA、MuSiQue等多跳问题,以及NarrativeQA单跳问题。
  • 指标:F1分数、Exact Match(EM)、LLM打分(LR-1、LR-2)。

4.2 结果对比

  • GraphReader在多跳与单跳任务中的表现均显著优于其他方法,特别是在超长文本处理(如256k长度)上表现出色。
  • 相较于ReadAgent和GPT-4-128k直接处理方法,GraphReader有效缓解了“中间信息丢失”问题。

4.3 消融研究

  • 去掉合理计划(Rational Plan):性能下降,验证了合理计划在指导探索中的重要性。
  • 随机节点选择:性能显著下降,表明智能节点选择对探索效率至关重要。

5. 方法优势
  1. 高效性:通过图结构减少对无关内容的探索,显著节省了推理成本。
  2. 扩展性:在仅4k的上下文窗口内实现了对超长文本的有效处理。
  3. 鲁棒性:在不同上下文长度下保持较高的召回率,尤其在256k超长文本场景下表现稳定。

6. 局限性与未来展望

局限性

  • 依赖闭源的GPT-4 API,可能受限于查询速率或区域限制。
  • 当前代理的推理能力受预定义规则的影响,灵活性有待进一步提高。

未来工作

  • 开发开源版本,降低使用门槛。
  • 增强代理的规划与推理能力,以进一步提升探索效率。

7. 总结与启示

GraphReader的提出为长文本处理提供了一种全新思路。通过图结构捕捉全局信息,结合代理的计划与反思能力,该方法不仅突破了上下文窗口的限制,还显著提高了复杂任务的解答能力。这种从“模型优化”到“系统设计”的转变,为解决长文本处理问题提供了新的研究方向。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值