Milvus 高可用与故障恢复策略

最新推荐文章于 2025-05-06 21:08:29 发布

莫比乌斯之梦

最新推荐文章于 2025-05-06 21:08:29 发布

阅读量2.1k

点赞数 39

分类专栏：技术#Milvus 文章标签： milvus 数据库向量数据库

本文链接：https://blog.csdn.net/linnaa6/article/details/146437928

版权

技术#Milvus 专栏收录该内容

46 篇文章

订阅专栏

1. 引言

随着 AI 语义搜索、推荐系统、计算机视觉等应用的快速发展，向量数据库 在海量数据检索和存储中的作用越来越重要。作为业界领先的开源向量数据库，Milvus 需要在生产环境下提供 高可用（High Availability, HA）和故障恢复（Disaster Recovery, DR） 机制，以确保 服务稳定、数据安全、查询不中断。本文将介绍 Milvus 在分布式环境下的高可用架构，并详细解析 数据持久化、自动扩容、负载均衡、故障恢复 等核心技术，帮助开发者构建稳定可靠的 AI 搜索系统。

2. Milvus 高可用架构

2.1 什么是高可用（HA）？

高可用性（HA） 是指 系统在硬件或软件故障时仍能继续提供服务，通常采用 多副本存储、负载均衡、自动恢复 等技术来提升服务可靠性。

2.2 Milvus 分布式架构

Milvus 2.x 采用 计算与存储分离的架构，支持 水平扩展和高可用部署，核心组件包括：

组件	功能	高可用机制
Proxy（代理层）	接收查询请求，负载均衡	多实例部署，支持 Failover
QueryNode（查询节点）	负责向量搜索计算	多个 QueryNode 共同工作，自动负载均衡
DataNode（存储节点）	负责数据存储与更新	支持多副本存储（S3、MinIO）
Meta Store（元数据存储）	存储 Collection、Schema、索引等	可使用 MySQL、PostgreSQL、Etcd
Log Broker（日志存储）	事务日志管理	采用 Pulsar 或 Kafka 进行日志复制

3. Milvus 高可用部署策略

3.1 使用分布式部署（Cluster 模式）

相比于 单机模式（Standalone），分布式 Milvus 具备 自动扩展、负载均衡、故障恢复 能力，是生产环境的推荐部署方式。

✅ 分布式 Milvus 高可用架构：

+---------------------------------------------------+
|                Milvus Distributed Cluster        |
+---------------------------------------------------+
|  Proxy (负载均衡)   |  Proxy (冗余代理)       |
|---------------------------------------------------|
|  QueryNode 1       |  QueryNode 2      |  QueryNode N  |
|  DataNode 1        |  DataNode 2       |  DataNode N  |
|---------------------------------------------------|
|  Meta Store (MySQL / Etcd)  |  Log Broker (Pulsar)  |
|---------------------------------------------------|
|  Object Storage (S3 / MinIO)  |  File Storage  |
+---------------------------------------------------+

3.2 负载均衡（Load Balancing）

Milvus 通过 Proxy 组件 进行 负载均衡，确保查询请求均匀分配到不同的 QueryNode，避免单点压力过大。

✅ 负载均衡方式：

Round-Robin（轮询）：每个查询请求平均分配到不同的 QueryNode。
Least Connections（最少连接）：优先分配给负载最轻的 QueryNode。

示例：Kubernetes 部署 Milvus 集群，自动负载均衡

apiVersion: apps/v1
kind: Deployment
metadata:
  name: milvus-proxy
spec:
  replicas: 2  # 启动多个 Proxy 实例
  template:
    spec:
      containers:
      - name: milvus-proxy
        image: milvusdb/milvus:latest

4. Milvus 故障恢复策略

4.1 数据持久化（Persistent Storage）

为了防止 数据丢失，Milvus 支持将数据存储在 对象存储（S3、MinIO），并提供 WAL（Write-Ahead Logging） 进行日志记录。

✅ 数据持久化方式：

存储到 S3/MinIO，防止本地磁盘故障导致数据丢失：

objectStorage:
  endpoint: "http://minio-server:9000"
  accessKeyID: "minioadmin"
  secretAccessKey: "minioadmin"
  bucketName: "milvus-data"

启用 WAL（预写日志），保证数据写入前先记录日志：
```
wal:
  enabled: true
  path: "/var/lib/milvus/wal"
```

4.2 自动故障恢复（Failover）

当某个 QueryNode 或 DataNode 崩溃 时，Milvus 具备 自动恢复能力，确保系统仍能正常运行。

✅ 故障恢复机制：

Proxy 发现某个 QueryNode 失效 → 自动切换到其他 QueryNode 处理查询请求。
DataNode 发生故障 → 数据存储在 S3/MinIO，不会丢失，新 DataNode 启动后自动恢复数据。

示例：启用 QueryNode 自动恢复

queryNode:
  replicas: 3  # 设置 3 个 QueryNode，确保高可用

4.3 数据备份与恢复（Backup & Restore）

为了防止灾难性数据丢失，Milvus 提供 定期备份机制，可将数据备份到 S3、MinIO 或远程存储。

✅ 数据备份方式：

使用 Milvus Export 备份数据

milvus_export --collection my_collection --output backup.json

定期复制 S3/MinIO 数据

aws s3 sync s3://milvus-backup /local/backup

使用 MySQL 备份元数据

mysqldump -u root -p milvus_meta > milvus_backup.sql

5. 结论：如何构建高可用 Milvus？

策略	作用	推荐配置
分布式部署	提高扩展性	Kubernetes 集群 + 多 Proxy / QueryNode
负载均衡	避免单点压力	多 Proxy，启用 Round-Robin 负载均衡
数据持久化	防止数据丢失	使用 S3 / MinIO 存储向量数据
自动故障恢复	保障查询不中断	多 QueryNode + 自动故障切换
WAL 事务日志	确保数据一致性	启用 WAL 日志存储
定期备份	防止灾难性数据丢失	备份 S3 数据，导出 MySQL 元数据