使用VikingDB进行向量数据库管理与应用-CSDN博客

本文链接：https://blog.csdn.net/eahba/article/details/145752940

VikingDB是一种专门用于存储、索引和管理由深度神经网络及其他机器学习模型生成的大规模嵌入向量的数据库。这篇文章将向您展示如何利用VikingDB进行向量数据库的相关操作。

技术背景介绍

在机器学习领域，特别是自然语言处理(NLP)和计算机视觉等领域，嵌入向量被广泛用于表示高维数据。管理这些向量的存储与查询是实现高效模型推理的关键。VikingDB就是为此场景而生的，它支持快速的向量检索与管理。

核心原理解析

VikingDB通过嵌入向量索引的构建与相似度搜索，提供了一种高效管理和查询大规模向量数据的方式。通过与LangChain等框架集成，它能够轻松加载文档、创建向量并执行相似性查询。

代码实现演示

下面的代码示例展示了如何利用VikingDB存储和查询文档向量。我们假设您已经拥有一个运行中的VikingDB实例。

首先，确保安装了必要的库：

!pip install -qU langchain-community
!pip install --upgrade volcengine

导入相关库并设置API密钥：

import getpass
import os
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores.vikingdb import VikingDB, VikingDBConfig
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 设置OpenAI的API密钥
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

加载文档并创建向量：

# 加载文本文件
loader = TextLoader("./test.txt")
documents = loader.load()

# 将文档分割为小块的文本
text_splitter = RecursiveCharacterTextSplitter(chunk_size=10, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 初始化嵌入
embeddings = OpenAIEmbeddings()

# 创建VikingDB实例并存储向量
db = VikingDB.from_documents(
    docs,
    embeddings,
    connection_args=VikingDBConfig(
        host="https://yunwu.ai",  # 使用国内稳定访问的URL
        region="your-region",
        ak="your-ak",
        sk="your-sk",
        scheme="http"
    ),
    drop_old=True,
)

执行相似性查询：

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)

# 输出最相关的文档内容
print(docs[0].page_content)

创建和检索集合：

# 创建新集合
db = VikingDB.from_documents(
    docs,
    embeddings,
    connection_args=VikingDBConfig(
        host="https://yunwu.ai",
        region="your-region",
        ak="your-ak",
        sk="your-sk",
        scheme="http"
    ),
    collection_name="collection_1",
    drop_old=True,
)

# 检索并使用存储的集合
db = VikingDB.from_documents(
    embeddings,
    connection_args=VikingDBConfig(
        host="https://yunwu.ai",
        region="your-region",
        ak="your-ak",
        sk="your-sk",
        scheme="http"
    ),
    collection_name="collection_1",
)