提升搜索效果的利器：如何利用Ensemble Retriever合并多个检索器的结果-CSDN博客

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/143611055

引言

在信息检索领域，不同的检索算法各具优势，如何充分利用这些优势来获得更好的检索效果，是开发者不断追求的目标。本文将介绍一种名为Ensemble Retriever的技术，来帮助我们结合多个检索器的结果，以实现更高效的搜索。其核心思想是通过Reciprocal Rank Fusion算法对来自多个基础检索器的结果进行重排序，从而提升整体性能。

主要内容

什么是Ensemble Retriever？

Ensemble Retriever是一种能够集成多个基础检索器（Base Retriever）的工具，它通过结合每个检索器的结果来提升整体检索效果。由于不同检索器基于不同的算法原理（如稀疏检索和密集检索），其在不同场景下表现出不同的优势。通过组合它们，我们可以获得更全面的搜索结果，这种方式也被称为"混合搜索"。

为什么要使用混合搜索？

在自然语言处理（NLP）应用中，稀疏检索器（如BM25）擅长通过关键字找到相关文档，而密集检索器（如基于向量嵌入的检索）擅长通过语义相似性找到相关文档。因此，结合这两者的优势可以大大提高搜索结果的相关性和准确性。

如何初始化和使用Ensemble Retriever

以下演示如何通过初始化一个BM25检索器和一个FAISS向量检索器来创建一个Ensemble Retriever。

from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

# 文档列表
doc_list_1 = [
    "I like apples",
    "I like oranges",
    "Apples and oranges are fruits",
]

# 初始化BM25检索器
bm25_retriever = BM25Retriever.from_texts(
    doc_list_1, metadatas=[{"source": 1}] * len(doc_list_1)
)
bm25_retriever.k = 2

# 初始化FAISS向量检索器
doc_list_2 = [
    "You like apples",
    "You like oranges",
]
embedding = OpenAIEmbeddings()
faiss_vectorstore = FAISS.from_texts(
    doc_list_2, embedding, metadatas=[{"source": 2}] * len(doc_list_2)
)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

# 初始化Ensemble Retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)

# 使用Ensemble Retriever进行搜索
docs = ensemble_retriever.invoke("apples")
print(docs)

代码示例

在上述代码中，我们通过文本初始化了两个检索器：一个基于BM25的稀疏检索器和一个基于FAISS的向量检索器。接着，我们通过EnsembleRetriever将它们组合在一起，同时为每个检索器设定权重（均为0.5），以达到结果融合的效果。然后，我们对关键词"apples"进行搜索。

常见问题和解决方案

如何调整检索器的参数？

我们可以在运行时使用可配置字段（ConfigurableField）来调整各个检索器的参数。例如，调整FAISS检索器的"top-k"参数：

from langchain_core.runnables import ConfigurableField

faiss_retriever = faiss_vectorstore.as_retriever(
    search_kwargs={"k": 2}
).configurable_fields(
    search_kwargs=ConfigurableField(
        id="search_kwargs_faiss",
        name="Search Kwargs",
        description="The search kwargs to use",
    )
)

ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)

config = {"configurable": {"search_kwargs_faiss": {"k": 1}}}
docs = ensemble_retriever.invoke("apples", config=config)