使用 DataStax Astra DB 构建智能AI应用

最新推荐文章于 2025-05-07 19:46:16 发布

tt_jishu

最新推荐文章于 2025-05-07 19:46:16 发布

阅读量550

点赞数 5

文章标签：数据库人工智能 python

本文链接：https://blog.csdn.net/tt_jishu/article/details/142170466

版权

引言

在当今快节奏的数字时代,构建智能AI应用程序变得越来越重要。无论是推荐引擎、自然语言处理还是预测分析,AI都能为用户带来卓越的体验。然而,构建这样的应用程序并非易事,因为它需要高性能、可扩展且经济高效的数据库来存储和处理海量数据。幸运的是,DataStax Astra DB 为开发人员提供了一款优秀的无服务器矢量数据库,能够满足这些需求。

本文将介绍如何使用 Astra DB 结合 LangChain 构建智能AI应用程序。我们将探讨 Astra DB 的关键功能,包括向量存储、聊天消息历史记录、LLM缓存和语义缓存等。通过实际示例,您将学习如何轻松集成这些功能,从而提高应用程序的性能和用户体验。

Astra DB 简介

DataStax Astra DB 是一款基于 Apache Cassandra® 构建的无服务器矢量数据库,通过易于使用的 JSON API 提供服务。它具有以下关键特性:

高性能: 作为 NoSQL 数据库,Astra DB 能够高效处理大规模的非结构化数据。
可扩展性: 无服务器架构使其能够根据需求动态扩展,无需手动配置。
矢量支持: 内置支持向量数据类型,可用于构建AI应用程序。
全球分布: 数据可跨多个云数据中心分布,确保低延迟访问。

安装和设置

要开始使用 Astra DB,首先需要安装 LangChain 的 Astra DB 集成包:

pip install "langchain-astradb>=0.1.0"

接下来,从 Astra DB 控制台获取连接密钥,并设置以下环境变量:

import os

os.environ["ASTRA_DB_APPLICATION_TOKEN"] = "YOUR_TOKEN"
os.environ["ASTRA_DB_API_ENDPOINT"] = "YOUR_API_ENDPOINT"

向量存储

向量存储是构建AI应用程序的核心组件,用于高效存储和检索向量化数据。使用 Astra DB,您可以轻松创建一个向量存储:

from langchain_astradb import AstraDBVectorStore

vector_store = AstraDBVectorStore(
    embedding=my_embedding,
    collection_name="my_store",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
)

这里的 my_embedding 是您使用的向量嵌入模型。您可以使用任何受支持的嵌入模型,如 OpenAI 的 text-embedding-ada-002。

向量存储支持常见的向量操作,如相似性搜索、最近邻查找等。它还提供了一个简单的 API 来存储和检索数据。

# 存储一个向量和元数据
vector_store.add_texts(texts=["Hello world"], metadatas=[{"source": "example"}])

# 查找与查询相似的向量
results = vector_store.similarity_search("Hello there", k=2)

聊天消息历史记录

对于构建聊天机器人或虚拟助手,跟踪聊天历史记录至关重要。Astra DB 提供了一个内置的聊天消息历史记录功能,可以轻松存储和检索聊天消息:

from langchain_astradb import AstraDBChatMessageHistory

message_history = AstraDBChatMessageHistory(
    session_id="test-session",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
)

# 添加一条消息
message_history.add_user_message("Hello")
message_history.add_ai_message("Hi there!")

# 获取整个对话
messages = message_history.messages

通过将聊天消息历史记录与语言模型结合使用,您可以构建上下文感知的对话体验,提高用户满意度。

LLM 缓存和语义缓存

当使用大型语言模型(LLM)时,缓存先前的响应可以显著提高性能并节省成本。Astra DB 提供了两种缓存选项:普通缓存和语义缓存。

普通缓存根据输入查询直接存储和检索响应:

from langchain.globals import set_llm_cache
from langchain_astradb import AstraDBCache

set_llm_cache(AstraDBCache(
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
))

语义缓存则使用向量相似性来检索缓存的响应,从而提供更智能的缓存行为:

from langchain.globals import set_llm_cache
from langchain_astradb import AstraDBSemanticCache

set_llm_cache(AstraDBSemanticCache(
    embedding=my_embedding,
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
))

使用缓存可以显著提高应用程序的响应速度和成本效率,尤其是在处理大量重复查询时。

其他功能

除了上述核心功能外,Astra DB 还提供了许多其他有用的集成,如文档加载器、自查询检索器、键值存储和字节存储等。这些功能可以进一步扩展您的AI应用程序,满足不同的需求。

# 文档加载器
from langchain_astradb import AstraDBLoader

loader = AstraDBLoader(
    collection_name="my_collection",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
)

# 自查询检索器
from langchain_astradb import AstraDBVectorStore
from langchain.retrievers.self_query.base import SelfQueryRetriever

retriever = SelfQueryRetriever.from_llm(
    my_llm,
    vector_store,
    document_content_description,
    metadata_field_info
)

# 键值存储
from langchain_astradb import AstraDBStore

store = AstraDBStore(
    collection_name="my_kv_store",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
)

# 字节存储
from langchain_astradb import AstraDBByteStore

store = AstraDBByteStore(
    collection_name="my_kv_store",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
)

您可以根据具体需求灵活组合这些功能,构建出功能强大的AI应用程序。

代码示例

下面是一个完整的示例,演示如何使用 Astra DB 构建一个简单的问答系统:

from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.document_loaders import TextLoader
from langchain_astradb import AstraDBVectorStore
from langchain.embeddings import OpenAIEmbeddings

# 加载文档
loader = TextLoader("path/to/docs.txt")
documents = loader.load()

# 创建向量存储
embedding = OpenAIEmbeddings()
vector_store = AstraDBVectorStore(
    embedding=embedding,
    collection_name="my_docs",
    api_endpoint=ASTRA_DB_API_ENDPOINT,  # 使用API代理服务提高访问稳定性
    token=ASTRA_DB_APPLICATION_TOKEN,
)
vector_store.add_documents(documents)

# 创建问答链
llm = OpenAI()
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vector_store.as_retriever(),
    return_source_documents=True,
)

# 提问
query = "What is the capital of France?"
result = qa({"query": query})
print(result['result'])