【论文笔记】StructRAG Boosting Knowledge 论文笔记

本文链接：https://blog.csdn.net/m0_65708726/article/details/143814271

StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization 论文精读

背景知识

知识密集型推理任务（knowledeg- intensive reasoning task）:

知识密集型推理任务（knowledge-intensive reasoning task）指的是需要大量先验知识或专业领域知识来进行推理和解决的任务。在这种任务中，推理和决策需要依赖于广泛的、深入的领域知识，通常涉及多个概念和关系的复杂推理过程。
举例来说，医学诊断就是一个知识密集型推理任务的典型案例。医生在对患者进行诊断时，需要结合患者的症状、病史、实验室检查结果等信息，并借助广泛的医学知识进行推理和判断，以最终做出准确的诊断。这种任务需要医生综合运用大量的医学知识，对病情进行推理和归纳，而且通常也需要考虑患者的个体差异和复杂情况，因此属于知识密集型推理任务的范畴

认知负荷理论

认知负荷理论是由John Sweller在1988年提出的，用于解释人类认知处理和学习的理论框架。该理论指出，**人脑的认知系统有着有限的处理能力，因此在学习和完成任务时会面临认知负荷的问题。**认知负荷理论通过研究认知处理的本质和人类学习的方式，提出了如何最大限度地减轻认知负荷，以便更有效地进行学习和任务处理。
认知负荷理论分为三种认知负荷：

内在认知负荷：指的是完成任务所必须的认知处理和思考负担。例如，当学习新的知识或解决复杂问题时，人们会面临内在认知负荷。
外在认知负荷：指的是执行任务所需要的外部支持和资源。例如，学习辅助工具、老师的讲解和指导等都可以帮助分担外在认知负荷。
增量认知负荷：指的是学习者额外承担的负担，用于处理不必要的信息和过多的任务要求。
认知负荷理论的应用包括设计更有效的教学方法、界面设计、工作流程等，以减轻学习者或用户在执行任务时所面临的认知负荷，从而提高学习效果和任务执行效率。

HotpotQA等多跳任务

HotpotQA是一项旨在评估自然语言处理模型多跳推理（multi-hop reasoning）能力的问答任务。多跳推理指的是模型在回答问题时，需要跨越多个中间步骤，整合来自不同来源的信息，才能得出正确的答案。

HotpotQA的主要特点：

多段落推理：问题需要从多个文档或段落中提取信息，而不仅仅是从单一来源。这要求模型能够关联和综合不同信息片段。
支持证据：除了提供答案外，模型还需要指出支持答案的证据段落。这增强了模型的可解释性，便于评估其推理过程。
多样化的问题类型：包括比较类、桥接类等问题，涉及不同的推理路径和策略。
开放域问答：问题涉及广泛的主题，要求模型具备广博的知识和灵活的推理能力。

其他多跳任务：

除了HotpotQA，还有其他一些多跳推理任务和数据集，用于评估和提高模型的推理能力：

WikiHop：需要从维基百科的多个文档中进行推理，找到连接问题和答案的路径。
ComplexWebQuestions：基于WebQuestions数据集，问题更复杂，需要多步推理才能回答。
QAngaroo：包括WikiHop和MedHop两个子数据集，专注于跨文档的多跳推理。
OpenBookQA：要求模型结合常识和科学知识，进行多步推理来回答问题。
NarrativeQA：基于故事和情节的问题，需要理解上下文并进行深度推理。

多跳任务的挑战：

信息整合：模型需要有效地从多个来源检索和整合信息。
推理路径：需要找到正确的推理路径，避免干扰信息。
计算复杂性：多跳推理增加了计算和时间成本，挑战模型的效率。
可解释性：提供清晰的推理过程和证据对于模型的可信度至关重要。

研究意义：

多跳任务对于推进自然语言理解和人工智能推理能力具有重要意义。它们促使模型超越简单的模式匹配，发展出更深层次的理解和推理能力。这对于构建更智能、更可靠的AI系统，如智能问答、对话系统和决策支持系统，具有深远的影响。

总结：

HotpotQA等多跳任务通过设计需要跨越多个信息源的问题，评估模型的推理和信息整合能力。这些任务推动了自然语言处理领域在理解、推理和可解释性方面的研究和发展。

Loong基准

Loong基准（Loong Benchmark）是一个专门为测试大语言模型（LLMs）的长上下文理解能力而设计的评估框架，重点是多文档问答（QA）任务，旨在创建更符合现实的复杂场景。这一基准与传统的长上下文评估不同，它从金融报告、法律案件和学术论文这三个领域精心选择文档，以确保上下文的完整性和相关性。

Loong基准包含四个主要评估类别：

聚光定位（Spotlight Locating） - 测试模型在多个文档中定位关键信息的能力。
比较（Comparison） - 评估模型跨文档比较信息的能力。
聚类（Clustering） - 基于语义相似性对相关信息进行分组。
推理链（Chain of Reasoning） - 检验模型在长上下文下进行逻辑推理的能力。

此外，Loong任务集覆盖了不同长度的输入，从10K到超过200K个token，允许对模型在不同上下文长度和任务复杂性下的性能进行细粒度评估。任务以中英文形式呈现，更接近实际应用场景【20†source】【21†source】【23†source】。

Pocast Transcripts

Podcast Transcripts 数据集是专为音频媒体的自然语言处理（NLP）任务而设计的，旨在研究和处理播客的语音转录文本。这个领域最近受到了越来越多的关注，因为播客内容形式丰富，涉及新闻、对话、故事讲述等多种风格。以下是几种主要的 Podcast Transcripts 数据集：

Spotify Podcast Dataset：这是一个规模较大的数据集，包含约10万集播客，包含音频文件及其对应的自动语音识别（ASR）转录文本。该数据集包含来自全球不同地区的播客，涵盖多种音质和长度的音频内容，总时长超过5万小时【32†source】【33†source】。
PodcastFillers Dataset：该数据集专注于英语播客中的语气词和填充词标注，包含199集完整播客，共计145小时的音频。这些转录文本也由自动语音识别系统生成，专门用于分析语音中的自然停顿和填充词【32†source】。

这些数据集不仅提供了音频文件和转录文本，还包括丰富的元数据，如播客节目的标题、描述、时长、发布者等信息，有助于多维度的分析和处理，尤其适合于语音识别、文本摘要和对话建模等研究方向【34†source】。

摘要

思考的问题：

原始文档->结构化的信息是怎么样的?

怎么利用结构化的信息的？

背景：检索增强生成（RAG）是在许多基于知识的任务中有效增强大型语言模型（LLM）的关键手段

面对的问题：

现有的RAG方法在知识密集型推理任务中存在困难，因为这些任务所需的有用信息分散且不规律
这一特点使得现有的RAG方法很难准确识别关键信息并进行全局推理，因为存在噪声干扰

解决办法：

本文通过人类在应对知识密集型推理时将原始信息转化为各种结构化知识的认知理论的启发，提出了一个新的框架，名为StructRAG
该框架可以在进行任务时识别最佳结构类型，将原始文档重新构建为这种结构化格式，并根据生成的结构进行推理得出答案

实验结果

在各种知识密集型任务上进行的大量实验表明，StructRAG实现了最先进的性能
特别擅长在具有挑战性的场景中表现，展示了它作为增强LLMs在复杂现实世界应用中的有效解决方案的潜力。

引言

知识密集型推理任务（knowledeg- intensive reasoning task）是什么意思？

怎么根据根据任务需求以最合适的结构？

作者的LLM分散知识化结构 LLM-based scattered knowledge structurize是什么？

怎么构建偏好训练数据的？

数据是怎么样的？

如何使用DPO训练混合结构路由器？

RAG背景

随着深度学习技术的进步，大规模语言模型（LLMs）在自然语言任务中展现出相当的优势，并广泛应用于复杂的现实世界场景（OpenAI等，2024年；Yang等，2024年a）。
然而，由于缺乏领域特定知识、实时更新信息和专有知识，它们在事实任务中仍然存在局限性
解决办法：RAG，通常，RAG方法涉及将原始文档分割成较短的部分，根据查询检索出最相关的部分，用这些部分使LLMs能够生成可靠的答案。

本文针对的RAG问题背景

当前的RAG方法无法有效处理知识密集型推理任务，因为解决这些任务所需的相关信息的分散性质
- 具体来说，知识密集型推理任务通常需要大量有用的信息，这些信息分散在提供的文档中的许多位置
- 与此同时，模型需要在检索到有用信息后执行综合推理
  
  以财务报告分析为例，考虑到大量的财务文件和比较多家公司发展趋势的需求，LLM需要挖掘原始文件中散落的所有相关财务指标，然后通过仔细比较和全面分析这些指标来生成见解。
标准的RAG方法面临着精确检索所有相关文本块的挑战
- 这些文本块可能包含大量噪音
- 并且集成多个关键信息用于推理，导致这些任务的性能不尽如人意。

人类的思考方式的启发

人们并不是通过简单阅读原始文本来解决知识密集型的推理任务

正如认知负荷理论所建议的，人类通常将文档中的零散信息总结为结构化知识，进而缩短推理路径并实现更准确的判断
认知匹配理论表明，人类更喜欢在不同任务中使用不同类型的结构化知识，例如表格用于统计分析任务，图表用于长链推理

启发LLMs推理采用人类的思维过程，将零散信息转化为各种结构格式，从而更好地服务于知识密集型的推理任务。

作者提出的解决办法

我们提出了StructRAG，它采用混合信息结构化机制，根据任务需求以最合适的格式构建和利用结构化知识。

在这里插入图片描述

StructRAG框架包括三个模块，旨在顺序识别最合适的结构类型，构建以该格式的结构化知识，并利用该结构化知识来推断最终答案。

首先，认识到不同的结构类型适用于不同的任务，提出了混合结构路由器，以根据当前任务的问题和文档信息确定最适当的结构类型。
其次，考虑到构建结构化知识是复杂的，并需要强大的理解和生成能力，采用了基于LLM的分散知识结构化程序，将原始文档转换为最佳类型的结构化知识。
最后，由于知识密集推理任务中的问题通常是复杂的组合问题，难以直接解决，所以使用了结构化知识利用程序，对问题进行分解，并进行精确知识提取，以便更准确地推断答案。

具体的主要工作

混合结构路由器能够准确选择每个输入任务的最适合结构类型

为了赋予路由器这种能力，我们提出了一种混合结构路由器的训练方法：受到强化学习在训练LLMs进行决策任务方面成功应用的启发，我们采用DPO算法来训练路由器模块，该算法遵循强化学习原则，无需额外的奖励模型。
然而，模型学习如何选择最佳结构类型的训练数据不足，而且在现实世界中收集足够的这类数据也具有挑战性。
- 为了解决这个问题，我们引入了一种新颖的流程，用于构建偏好训练数据，其中包括任务合成、解决方案模拟和偏好判断，以创建高质量的合成数据，从而增强路由器选择适当结构类型的能力。

实验

在我们的实验中，我们评估了StructRAG在各种知识密集型推理任务中的表现，并将其与几个强大的RAG基线进行了比较。结果表明，StructRAG取得了最先进的性能，在任务复杂性增加时改进更加显著。

此外，与最近的图形RAG方法相比，StructRAG不仅在更广泛的任务范围内表现出卓越性能，而且平均操作速度也更快。

通过混合信息结构化来构建STRUCTRAG

要是不能表示成该结构怎么办？

感觉就是把原本LLM黑盒中的一些部分拿出来，单独训练，在组合在一起。

核心内容C是怎么来的

任务建模

$\ D = \{d^{(i)}\}^m_{i=1}$

知识密集型推理任务提供了一个问题 q 和一个大量的文档集合 D 作为输入，其目标是根据提供的文档得出答案 a
m 是文档的数量，可以超过 20，导致总token数达到 200K
这些任务最明显的特征是有用信息分散在提供的文档中，要求模型基于大规模相关数据进行复杂推理。

例如，在比较使用一批财务报告的几家公司的发展趋势时，任务需要检索分布在文档中的各种财务指标，然后详细比较这些指标。这涉及考虑不同指标的相对重要性以及数值差异的大小等因素。因此，知识密集型推理任务具有重大挑战。

Hybird Structure Router

$\ C = \{ c^{(i)}\}^m_{i=1}$

混合结构路由器R来选择最佳的结构类型。

路由器利用问题q和文档D的核心内容C来做出决策并生成最适合的结构类型t，因为一次性处理整个文档集是不现实的。
C 是来自每个文档 d(i) 的标题或前几句话的集中体现。
t 有五种候选结构类型，分别适用于五种知识密集型任务：
- 表格适用于统计任务
- 图表适用于长链任务
- 算法适用于规划任务
- 目录适用于总结任务
- 以及块适用于简单的单跳任务。
考虑到路由器在整体框架中的核心作用，我们的工作设计了一种基于DPO的训练方法，以开发一个在知识类型决策方面表现优异的路由器，详情请参考第4节。