Milvus：开启高维向量检索的新篇章

最新推荐文章于 2024-08-13 12:03:56 发布

Kimi-学长

最新推荐文章于 2024-08-13 12:03:56 发布

阅读量780

点赞数 9

文章标签： milvus

本文链接：https://blog.csdn.net/Kimi2024/article/details/139058556

版权

Milvus是一个开源的特征向量数据库，用于处理大规模机器学习和深度学习应用中的非结构化数据。它提供了高维向量检索的能力，使得在庞大的数据集中快速找到相似向量成为可能。Milvus支持多种向量相似度计算方法，如欧氏距离、内积等，并且可以轻松地与现有的机器学习框架和工具集成。
Milvus的基本概念
1. Collection（集合）
在Milvus中，Collection是数据存储和管理的基本单位。它可以被看作是一个数据库表，用于存储向量数据和相关属性。每个Collection由多个分区（Partition）组成，便于数据的组织和管理。
2. Partition（分区）
Partition是Collection中的一个逻辑数据分组。通过分区，用户可以将数据组织成不同的子集，便于查询和管理。Milvus支持动态创建分区，使得数据的插入和查询更加灵活。
3. Segment（段）
Segment是Partition中的数据存储单元。每个Partition由一个或多个Segment组成。当数据插入Partition时，Milvus会自动创建新的Segment。Segment的设计有助于优化查询性能和负载均衡。4. Index（索引）
索引是用于提高查询效率的数据结构。Milvus支持多种索引类型，如IVF_FLAT、IVF_SQ8等。索引可以显著减少查询时的数据扫描范围，提高查询速度。
5. Metric Type（度量类型）
Metric Type定义了向量之间的相似度计算方法。Milvus支持多种度量类型，如欧氏距离（L2）、内积（IP）、余弦相似度（COSINE）等。根据应用场景选择合适的度量类型，可以提高查询的准确性。
Milvus的使用
1. 安装Milvus
Milvus提供了多种安装方式，包括使用Docker、源代码编译等。推荐使用Docker进行安装，因为它可以简化部署和升级过程。
2. 创建Collection
在Milvus中创建Collection时，需要指定Collection的名称、向量维度、索引类型、度量类型等参数。
```python
from pymilvus import (
connections,
FieldSchema, CollectionSchema, DataType,
Collection
)
# 连接到Milvus服务器
connections.connect("default", host='localhost', port='19530')
# 定义字段
fields = [
FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=128)
]
# 定义Collection
schema = CollectionSchema(fields, description="test collection")
# 创建Collection
collection = Collection("my_collection", schema=schema)
```
3. 插入数据
向Milvus中插入数据时，需要将数据组织成DataFrame格式，然后使用`insert`方法插入。
```python
import pandas as pd
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection
# 创建DataFrame
data = [[i] for i in range(1000)]
df = pd.DataFrame(data, columns=["embedding"])
# 插入数据
mr = collection.insert(df)
```
4. 创建索引
在查询之前，需要为Collection创建索引。根据实际应用场景选择合适的索引类型和参数。
```python
# 创建索引
index_params = {
"metric_type": "L2",
"index_type": "IVF_FLAT",
"params": {"nlist": 128}
}
collection.create_index(field_name="embedding", index_params=index_params)
```
5. 查询数据
Milvus支持多种查询方式，如基于向量相似度的查询、基于ID的查询等。以下是一个基于向量相似度的查询示例：
```python
# 查询向量
query_embedding = [[1.0]*128]
# 搜索参数
search_params = {
"metric_type": "L2",
"params": {"nprobe": 10},
}
# 查询
results = collection.search(query_embedding, "embedding", search_params, limit=10)
# 输出查询结果
for result in results:
print(result)
```
6. 删除数据
根据需要，可以使用`delete`方法删除Collection中的数据。
```python
# 删除数据
collection.delete(expr=f"id in {ids_to_delete}")
```
7. 释放资源
使用完毕后，可以释放Milvus占用的资源。
```python
# 删除Collection
collection.drop()
# 断开连接
connections.disconnect("default")
```
通过以上步骤，您可以了解Milvus的基本概念和使用方法。Milvus作为一个高性能、可扩展的向量数据库，在机器学习和深度学习领域具有广泛的应用前景。