探索Viking DB：现代AI应用中的强大向量存储库

最新推荐文章于 2025-05-19 00:29:18 发布

dsndnwfk

最新推荐文章于 2025-05-19 00:29:18 发布

阅读量483

点赞数 5

文章标签：数据库人工智能 python

本文链接：https://blog.csdn.net/dsndnwfk/article/details/143699403

版权

探索Viking DB：现代AI应用中的强大向量存储库

近年来，随着深度学习和其他机器学习模型的日益普及，向量化数据的存储和处理需求日益增加。Viking DB 是一种专门为存储、索引和管理由这些模型生成的海量嵌入向量而设计的数据库。本文将介绍如何使用 Viking DB 及其相关功能，以便更好地管理和操作这些向量化数据。

引言

在现代人工智能应用中，嵌入向量是表征数据的强大工具。然而，管理和查询这些庞大的向量数据集需要特别的数据库系统，从而确保高效和可扩展性。Viking DB 作为这种用途的数据库，提供了强大的功能。本文将指导你如何在 Python 中使用 Viking DB 及其与 langchain 的整合。

主要内容

安装与设置

首先，确保安装 langchain-community 和必要的库：

pip install -qU langchain-community
pip install --upgrade volcengine

还需要确保手上有一个 Viking DB 实例正在运行。此外，获取并设置 API Key 也是必要的：

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

加载文档并创建向量数据库

使用 TextLoader 来加载文本文件，并使用 RecursiveCharacterTextSplitter 将文档拆分为较小的部分。然后，我们可以使用 OpenAIEmbeddings 生成文档向量，并将其存储在 Viking DB 中。

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores.vikingdb import VikingDB, VikingDBConfig
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

loader = TextLoader("./test.txt")
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=10, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

db = VikingDB.from_documents(
    docs,
    embeddings,
    connection_args=VikingDBConfig(
        host="host", region="region", ak="ak", sk="sk", scheme="http"  # 使用API代理服务提高访问稳定性
    ),
    drop_old=True,
)

查询数据库

通过以下代码可以执行相似性搜索，从而找到与查询最相关的文档。

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)

print(docs[0].page_content)

使用Viking DB集合

Viking DB支持将不同的文档存储在不同的集合中，以便在同一个数据库实例中维护上下文。

db = VikingDB.from_documents(
    docs,
    embeddings,
    connection_args=VikingDBConfig(
        host="host", region="region", ak="ak", sk="sk", scheme="http"
    ),
    collection_name="collection_1",
    drop_old=True,
)

检索存储的集合并执行查询：

db = VikingDB.from_documents(
    embeddings,
    connection_args=VikingDBConfig(
        host="host", region="region", ak="ak", sk="sk", scheme="http"
    ),
    collection_name="collection_1",
)

# 继续进行常规查询操作