1、摘要结构
(1)面临问题:长文本理解
(2)问题原因:上下文窗口长度有限
(3)当前解决方法:外推位置嵌入、递归、检索来扩展上下文窗口
(4)不足之处:仍然不能有效处理长文理解
(5)提出方法:MemWalker
(6)方法大致步骤:将LLM视为一个交互代理,允许它通过迭代提示来决定如何阅读文本。将长上下文处理成一个摘要节点树。接受到查询后,会在树中导航搜索,收集到足够信息就进行响应。
(7)实验数据集:(摘要中未提及,下面是文章中提及的)使用来自scroll基准数据集:QuALITY、SummScreenFD、GovReport
(8)实验结果和性能提升方面:优于使用长上下文窗口、递归、检索的基线方法,并提高了可解释性。
2、核心构建过程
内存树的构建
将长文本切分成预先定义大小的块,每个块汇总成一个摘要结点。摘要结点递归地汇总成一个更高级别的节点,直到达到根节点。
导航
给定一个查询,LLM通过迭代提示的方式导航摘要树,找到包含相关片段的节点来形成答案。在每个节点上,LLM通过从分布LLM中抽样,首先对子摘要节点进行推理,从而决定操作。如果选错路径或者选择到不相关的片段,则可以恢复操作返回到父节点。
3、Prompt设计
构建叶节点、构建非叶节点、导航
4、该方法的三个局限性
1、序列长度非常长时,需要更多的节点,会使内存树的构建过程更繁杂。可考虑推广更多的树、哈希表等数据结构。
2、充足的推理能力的LLM采用MemWalker的方式才有效。可以考虑用一个更小的模型,执行类似的指令之后的程序。
3、MemWaler使用零样本,并且没有为微调。可以考虑执行交互式阅读并收集用于进一步微调的路径数据。