使用DocArray InMemorySearch进行高效的文档搜索

tt_jishu

于 2024-10-07 19:15:00 发布

阅读量117

点赞数 1

文章标签： python 开发语言

本文链接：https://blog.csdn.net/tt_jishu/article/details/142744727

版权

引言

在处理小型数据集时，您可能不希望启动数据库服务器，DocArray InMemorySearch 为此提供了一个高效的解决方案。本文将介绍如何使用 DocArray InMemorySearch 进行文档索引和相似性搜索，以便轻松地处理文档的存储和检索。

主要内容

设置环境

首先，确保安装必要的库：

%pip install --upgrade --quiet langchain-community "docarray"

您将需要一个 OpenAI API 密钥，可以从 OpenAI官方网站获取。

import os
from getpass import getpass

OPENAI_API_KEY = getpass()

os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY

使用DocArray InMemorySearch

导入所需模块：

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import DocArrayInMemorySearch
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

加载并处理文档：

documents = TextLoader("../../how_to/state_of_the_union.txt").load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

初始化嵌入和索引：

embeddings = OpenAIEmbeddings()

# 使用API代理服务提高访问稳定性
db = DocArrayInMemorySearch.from_documents(docs, embeddings)

执行相似性搜索

进行简单的相似性搜索：

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)

print(docs[0].page_content)

带有分数的相似性搜索：

docs_with_score = db.similarity_search_with_score(query)
print(docs_with_score[0])

常见问题和解决方案

问题：访问Docarray API时，响应时间较长或不稳定。

解决方案：由于网络限制，建议使用 API代理服务来提高访问稳定性。

问题：相似性搜索结果不够准确。

解决方案：尝试调整 chunk_size 或使用更好的文本分割策略，以提高文档的可识别性。

总结和进一步学习资源

DocArray InMemorySearch 是处理小型数据集的一种高效方式。要进一步学习，您可以参考以下资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—

tt_jishu

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫