探索Astra DB Vector Store：从入门到精通

sjufgwgfhoia

于 2024-10-07 17:49:12 发布

阅读量118

点赞数 3

文章标签：数据库 python

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/142743830

版权

引言

在数据科学和人工智能领域，Vector Store正在成为一种强大的工具。Astra DB是一种无服务器、基于Apache Cassandra®的数据库，它不仅支持向量存储，还提供了易于使用的JSON API接口。本文将带你快速入门Astra DB Vector Store，详细讲解如何使用它来存储和查询向量数据。

主要内容

设置

首先，你需要安装langchain-astradb合作包：

pip install -qU "langchain-astradb>=0.3.3"

凭证

前往AstraDB官网，创建账户。
创建新的数据库并等待初始化。
创建应用程序令牌，并保存以备后用。
从数据库详情中复制API终端并存储在ASTRA_DB_API_ENDPOINT变量中。

import getpass

ASTRA_DB_API_ENDPOINT = getpass.getpass("ASTRA_DB_API_ENDPOINT = ")
ASTRA_DB_APPLICATION_TOKEN = getpass.getpass("ASTRA_DB_APPLICATION_TOKEN = ")

desired_namespace = getpass.getpass("ASTRA_DB_NAMESPACE = ")
if desired_namespace:
    ASTRA_DB_NAMESPACE = desired_namespace
else:
    ASTRA_DB_NAMESPACE = None

初始化

方法一：显式嵌入

通过实例化langchain_core.embeddings.Embeddings类，然后传入AstraDBVectorStore构造函数。

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

from langchain_astradb import AstraDBVectorStore

vector_store = AstraDBVectorStore(
    collection_name="astra_vector_langchain",
    embedding=embeddings,
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
    namespace=ASTRA_DB_NAMESPACE,
)

方法二：集成嵌入计算

通过启用Astra DB的Vectorize功能，直接在创建存储时指定嵌入模型。

from astrapy.info import CollectionVectorServiceOptions

openai_vectorize_options = CollectionVectorServiceOptions(
    provider="openai",
    model_name="text-embedding-3-small",
    authentication={
        "providerKey": "OPENAI_API_KEY",
    },
)

vector_store_integrated = AstraDBVectorStore(
    collection_name="astra_vector_langchain_integrated",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
    namespace=ASTRA_DB_NAMESPACE,
    collection_vector_service_options=openai_vectorize_options,
)

代码示例

添加文档

from uuid import uuid4
from langchain_core.documents import Document

document_1 = Document(page_content="I had chocolate chip pancakes.", metadata={"source": "tweet"})

documents = [document_1]
uuids = [str(uuid4())]

vector_store.add_documents(documents=documents, ids=uuids)

查询向量存储

results = vector_store.similarity_search(
    "LangChain provides abstractions to make working with LLMs easy", k=2, filter={"source": "tweet"}
)

for res in results:
    print(f"* {res.page_content} [{res.metadata}]")