[掌握DashScope Reranker：提升文档压缩与检索效率的方法]-CSDN博客

本文链接：https://blog.csdn.net/nseejrukjhad/article/details/142741786

掌握DashScope Reranker：提升文档压缩与检索效率的方法

引言

DashScope是阿里云推出的生成式AI服务，其中的Text ReRank模型能够对最多4000个token的文档进行重新排序。此功能支持多种语言，包括中文、英文、日语、韩语等。这篇文章将探讨如何使用DashScope Reranker进行文档压缩与检索，并结合代码示例帮助您掌握这一强大的工具。

主要内容

设置环境

首先，我们需要确保安装必要的Python包：

%pip install --upgrade --quiet dashscope
%pip install --upgrade --quiet faiss-cpu

确保您已经创建了DashScope API密钥，并在环境变量中设置：

import getpass
import os

os.environ["DASHSCOPE_API_KEY"] = getpass.getpass("DashScope API Key:")

文档加载与向量存储

我们将使用TextLoader加载文档，然后使用FAISS进行向量存储。

from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.dashscope import DashScopeEmbeddings
from langchain_community.vectorstores.faiss import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

documents = TextLoader("path/to/document.txt").load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)
retriever = FAISS.from_documents(texts, DashScopeEmbeddings()).as_retriever(
    search_kwargs={"k": 20}
)

文档查询与重排序

使用DashScope Rerank对查询结果进行重新排序。

from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.document_compressors.dashscope_rerank import DashScopeRerank

compressor = DashScopeRerank()
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

query = "What did the president say about Ketanji Brown Jackson"
compressed_docs = compression_retriever.invoke(query)
pretty_print_docs(compressed_docs)

代码示例：打印文档

def pretty_print_docs(docs):
    print(
        f"\n{'-' * 100}\n".join(
            [f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
        )
    )