深入浅出：如何使用Parent Document Retriever优化文档检索

最新推荐文章于 2025-04-30 11:28:26 发布

srysduguho

最新推荐文章于 2025-04-30 11:28:26 发布

阅读量285

点赞数 5

文章标签： java 前端数据库 python

本文链接：https://blog.csdn.net/srysduguho/article/details/144575002

版权

引言

在处理大型文档数据时，通常会面临一个两难选择：是将文档拆分为小块，以便其嵌入准确地反映其意义，还是保持块足够大以保留上下文？ParentDocumentRetriever在检索过程中通过先提取小块数据，然后根据这些块的父ID返回较大的文档，巧妙地解决了这一问题。

本篇文章将深入讲解如何使用ParentDocumentRetriever，并提供详细代码示例。

主要内容

1. Parent Document Retriever概述

ParentDocumentRetriever通过将文档拆分为较小的块进行存储，并在检索时返回较大文档来实现高效的文档检索。这个过程涉及两个主要步骤：

拆分文档：将文档拆分成小块以便存储和索引。
检索父文档：在需要时检索并返回原始较大文档。

2. 支持的组件与功能

在实现这一功能时，使用了以下组件：

InMemoryStore：一个简单的内存存储，用来存储父文档。
Chroma：一个用于存储和索引文档新区块的向量存储。
OpenAIEmbeddings：用于创建文本的嵌入表示。
RecursiveCharacterTextSplitter：用于根据字符长度递归拆分文档的文本拆分器。

代码示例

下面的代码示例演示了如何使用ParentDocumentRetriever来检索文档。

from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain_chroma import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载文本数据
loaders = [
    TextLoader("paul_graham_essay.txt"),
    TextLoader("state_of_the_union.txt"),
]
docs = []
for loader in loaders:
    docs.extend(loader.load())

# 创建子文档拆分器
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)
vectorstore = Chroma(
    collection_name="full_documents", embedding_function=OpenAIEmbeddings()
)
store = InMemoryStore()

# 创建检索器实例
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
)

# 添加文档
retriever.add_documents(docs, ids=None)

# 检索示例
retrieved_docs = retriever.invoke("justice breyer")
print(retrieved_docs[0].page_content)