【LLM长文处理】WALKING DOWN THE MEMORY MAZE: BEYOND CONTEXT LIMIT THROUGH INTERACTIVE READING

文章探讨了长文本理解中的问题,特别是上下文窗口长度有限。MemWalker提出了一种创新方法,通过构建内存树和交互式导航来扩展上下文。实验结果显示,相比传统方法,MemWalker在处理长文理解和可解释性上有所提升,使用了QuALITY、SummScreenFD和GovReport数据集进行评估。
摘要由CSDN通过智能技术生成

1、摘要结构

(1)面临问题:长文本理解

(2)问题原因:上下文窗口长度有限

(3)当前解决方法:外推位置嵌入、递归、检索来扩展上下文窗口

(4)不足之处:仍然不能有效处理长文理解

(5)提出方法:MemWalker

(6)方法大致步骤:将LLM视为一个交互代理,允许它通过迭代提示来决定如何阅读文本。将长上下文处理成一个摘要节点树。接受到查询后,会在树中导航搜索,收集到足够信息就进行响应。

(7)实验数据集:(摘要中未提及,下面是文章中提及的)使用来自scroll基准数据集:QuALITY、SummScreenFD、GovReport

(8)实验结果和性能提升方面:优于使用长上下文窗口、递归、检索的基线方法,并提高了可解释性。

2、核心构建过程

在这里插入图片描述

内存树的构建

将长文本切分成预先定义大小的块,每个块汇总成一个摘要结点。摘要结点递归地汇总成一个更高级别的节点,直到达到根节点。

导航

给定一个查询,LLM通过迭代提示的方式导航摘要树,找到包含相关片段的节点来形成答案。在每个节点上,LLM通过从分布LLM中抽样,首先对子摘要节点进行推理,从而决定操作。如果选错路径或者选择到不相关的片段,则可以恢复操作返回到父节点。

3、Prompt设计

构建叶节点、构建非叶节点、导航
在这里插入图片描述

4、该方法的三个局限性

1、序列长度非常长时,需要更多的节点,会使内存树的构建过程更繁杂。可考虑推广更多的树、哈希表等数据结构。
2、充足的推理能力的LLM采用MemWalker的方式才有效。可以考虑用一个更小的模型,执行类似的指令之后的程序。
3、MemWaler使用零样本,并且没有为微调。可以考虑执行交互式阅读并收集用于进一步微调的路径数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辰阳星宇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值