使用Amazon DocumentDB进行向量搜索实践-CSDN博客

本文链接：https://blog.csdn.net/AWsggdrg/article/details/144975643

随着大数据的迅猛发展，如何高效检索和分析海量非结构化数据成为了一大挑战。Amazon DocumentDB作为一种与MongoDB兼容的文档数据库，集成了强大的向量搜索功能，可以让我们轻松地对海量文档进行相似性检索。本文将通过一个完整的示例，带你深入了解如何利用Amazon DocumentDB的向量搜索功能。

技术背景介绍

Amazon DocumentDB（与MongoDB兼容）让开发者可以利用他们已经熟悉的MongoDB命令进行数据库操作，同时支持现代的向量搜索，使得复杂的文本检索和分析更为便利。通过使用近似最近邻（ANN）算法，如“余弦距离”、“欧氏距离”和“点积”，DocumentDB可以高效进行文本相似性搜索。

核心原理解析

向量搜索的基本原理是将文本数据转换为向量形式，通过计算查询向量与文档向量的相似性来排序搜索结果。Amazon DocumentDB 默认创建的HNSW索引（Hierarchical Navigable Small World）保证了高效的向量搜索性能。

代码实现演示

以下代码演示了如何使用Amazon DocumentDB进行向量搜索。我们将从文本文件加载文档，创建索引，并进行相似性查询。

import os
import getpass
from pymongo import MongoClient
from langchain.vectorstores.documentdb import (
    DocumentDBSimilarityType,
    DocumentDBVectorSearch
)
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 设置DocumentDB连接字符串
CONNECTION_STRING = getpass.getpass("DocumentDB Cluster URI:")

# 设置OpenAI API环境变量
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
os.environ["OPENAI_EMBEDDINGS_DEPLOYMENT"] = "smart-agent-embedding-ada"
os.environ["OPENAI_EMBEDDINGS_MODEL_NAME"] = "text-embedding-ada-002"

# 加载文本文件
SOURCE_FILE_NAME = "state_of_the_union.txt"
loader = TextLoader(SOURCE_FILE_NAME)
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 初始化OpenAIEmbedding
openai_embeddings = OpenAIEmbeddings(
    deployment=os.getenv("OPENAI_EMBEDDINGS_DEPLOYMENT"),
    model=os.getenv("OPENAI_EMBEDDINGS_MODEL_NAME")
)

# 创建DocumentDB客户端
client = MongoClient(CONNECTION_STRING)
collection = client["izzy_test_db"]["izzy_test_collection"]

# 创建向量存储
vectorstore = DocumentDBVectorSearch.from_documents(
    documents=docs,
    embedding=openai_embeddings,
    collection=collection,
    index_name="izzy-test-index"
)

# 配置索引
vectorstore.create_index(dimensions=1536, similarity_algorithm=DocumentDBSimilarityType.COS)

# 执行相似性搜索
query = "What did the President say about Ketanji Brown Jackson"
docs = vectorstore.similarity_search(query)

print(docs[0].page_content)