【RAG 博客】Haystack 中的 DiversityRanker 与 LostInMiddleRanker 用来增强 RAG pipelines

yubinCloud

已于 2024-04-30 22:10:32 修改

阅读量1.6k

点赞数 13

分类专栏： LLM Research 文章标签： RAG 自然语言处理语言模型算法

于 2024-04-30 22:09:48 首次发布

本文链接：https://blog.csdn.net/qq_45668004/article/details/138357285

版权

LLM Research 专栏收录该内容

43 篇文章

订阅专栏

本文介绍了如何在Haystack框架中使用DiversityRanker和LostInTheMiddleRanker优化RAGpipeline，通过增强文档多样性及利用LLM的长距离依赖特性，以提高生成答案的质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Blog：Enhancing RAG Pipelines in Haystack: Introducing DiversityRanker and LostInTheMiddleRanker
⭐⭐⭐⭐

文章目录

这篇 blog 介绍了什么是 Haystack，以及如何在 Haystack 框架中使用 DiversityRanker 和 LostInTheMiddleRanker 来增强 RAG pipeline 效果。我们重点是从这篇文章中学习到 RAG pipeline 中 re-rank 的思想。

我们知道，LLM 是根据他的上下文窗口中的文本内容来生成响应，但是 LLM 的上下文窗口是有 token 个数限制的，因此，我们需要充分利用 LLM 的上下文窗口来最大限度地提高其生成答案的质量。但在现实使用 RAG 时，检索到的文档可能高度相关，很多重复且数量众多，导致很有可能溢出 LLM 的上下文窗口。

本文介绍的组件 —— DiversityRanker 和 LostInTheMiddleRanker，就是用来解决这些挑战并改进 RAG pipeline 生成的答案。

Haystack 是什么

Haystack 是一个开源框架，为 NLP 研究者提供端到端的解决方案，其模块化的设计允许其集成最先进的 NLP 模型、文档存储以及 NLP 工具箱中所需的各种其他组件。

Haystack 的一个关键概念是 pipeline，它表示一系列由特定 component 执行的处理步骤，这些 component 可以执行各种类型的文本处理，并允许用户通过定义数据如何流经 pipeline 以及执行处理步骤的节点顺序，轻松创建强大且可定制的系统。

1. DiversityRanker

DiversityRanker 是一个 Haystack 的 component，它旨在增强 RAG 管道中上下文窗口所选 documents 的多样性。这样做的原因是：多样化的 documents 可以辅助 LLM 生成更广泛、更深入的答案。

DiversityRanker 使用 sentence transformers 库来计算 doc 之间的 similarity。sentence transformers 库提供了强大的 embedding 模型，可以用于创建句子、段落甚至整个 doc 的有意义的 embedding representation。

DiversityRanker 使用以下算法处理文档：

首先使用 sentence transformers 模型计算每个 doc 和 query 的嵌入。
然后选择语义上与 query 最接近的文档作为第一个选定的文档 A。
对于每个剩余的文档，计算与已选定的文档 A 的 similarity。从中选出一个与 A 的 similarity 最不高的文档作为下一个选中的文档。
重复以上步骤，直到选择出一个文档列表，其顺序从对整体多样性贡献最大的文档到贡献最小的文档。

需要注意的是，DiversityRanker 的算法是贪心的思想，其最终得到的文档列表的顺序可能并非是全局最优的。

DiversityRanker 强调了 doc 的多样性而非相关性，所以它在 RAG 的 pipeline 中应该放在像 TopPSampler 或者其他 similarity ranker 之后，这些 similarity ranker 选出了最相关的 docs，然后再使用 DiversityRanker 来从中按照多样性再次排序。