跨文档、跨片段 RAG 论文小汇总

为了将外部知识库有效引入大模型进行回答,RAG(检索增强生成)被开发。在原始的 RAG(naive RAG) 流程中,外部文档经历切片、检索、生成,获取到最终答案输出。但在处理需要跨文档、或者跨片段的问题时,naive RAG 显得心有余而力不足。因此不同的方法被提出来解决这一问题。我们对相关论文进行了一些汇总。

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization

    • 文本 chunk 总结出实体,获取实体之间的关系,组建图社区,获取社区摘要。
  • MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries

    • 组建了一个 multi-hop query 数据集,将 multi-hop query 分为四类:推理、比较、时间综合、找不到答案
    • 评估分为了两阶段:检索结果评估、和在给定上下文条件下的模型生成质量评估;
    • 使用 naive RAG 流程进行评估,算法上没有太多可供参考的内容。
  • GenDec: A robust generative Question-decomposition method for Multi-hop reasoning

    • 解决复杂或者 multi-hop 问题的一种方式就是 CoT 或者上下文学习,来迭代分解回答复杂问题,但同时也会存在错误累积传播的问题;
    • 在生成子问题 q s u b q_{sub} qsub 时,同时使用了检索到的段落和问题 q q q 来进行生成;
    • 文章还自己训了 BART、T5 等模型,为啥不直接用现有的大模型?
  • NaLLM (Neo4j 的项目)

    • 简单的 naive RAG 不适用于 multi-hop query 的原因:

      • 检索出来的 top N 文档大量重复;
      • 检索结果可能丢失参考信息;
      • N 值较难选取。
    • 从文本中提取实体和关系构建知识图。知识图则使用节点关系表征数据;

    • 许多人期望在 query 阶段解决 multi-hop 查询,但实际上,许多问题都可以在数据预处理和将数据保存到知识图时解决;

    • 在使用时,首先使用 LLM 生成一个 “暗号查询”,到知识图中进行检索,然后将问题和查询到的信息送入另一个 LLM 生成答案;

    • 结合“暗号查询”和向量相似性进行检索;

    • 在思维链中使用知识图:使用思维链进行问题分解,在知识图中获取分解问题的结果,按步骤获取最终答案。

RAG(Retrieval-Augmented Generation)是一种结合了检索和生成技术的模型,它利用预训练的语言模型(如GPT)生成答案,并通过检索系统查找相关信息来增强其响应。RAG知识库需求文档是用于指导构建或维护一个能够支持RAG模型的知识库的文档。这样的文档通常会包含以下内容: 1. 知识库的目标和范围:明确知识库需要覆盖的主题范围、预期的数据量、更新频率等。 2. 数据采集:说明如何收集和整理数据,包括数据来源、数据格式、数据清洗和预处理等步骤。 3. 数据存储和管理:描述知识库的存储结构、索引机制、数据一致性保证、备份策略和安全性要求。 4. 检索系统设计:定义检索系统的工作原理,包括搜索引擎的选择、索引建立、检索算法、相关性评分和检索结果的展示方式。 5. 数据更新和维护:概述数据更新的流程,包括新数据的录入、旧数据的淘汰或更新、数据的验证和测试等。 6. 用户接口:如果知识库将直接与用户交互,需要定义用户接口的设计,包括搜索界面、结果展示、用户反馈机制等。 7. 性能和质量保证:描述如何评估知识库的性能和信息质量,包括准确度、响应时间、容错能力等。 8. 安全和合规性:确保知识库的设计遵循相关的数据保护法规和标准,包括用户数据的隐私保护、数据访问控制和审计日志记录。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

哇哇九号

您的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值