Milvus 索引算法对比：FLAT、IVF、HNSW、SCANN

莫比乌斯之梦

于 2025-03-23 10:00:00 发布

阅读量897

点赞数 18

分类专栏：技术#Milvus 文章标签：算法 milvus 数据挖掘

本文链接：https://blog.csdn.net/linnaa6/article/details/146340370

版权

技术#Milvus 专栏收录该内容

46 篇文章

订阅专栏

Milvus 作为一款强大的开源向量数据库，支持多种索引算法来优化向量检索性能。不同的索引算法在搜索精度、查询速度、存储占用等方面各有特点，适用于不同的业务场景。本文将详细对比 Milvus 中的 FLAT、IVF、HNSW、SCANN 等索引算法，帮助开发者选择最适合自己应用需求的索引类型。

1. 为什么索引算法重要？

在处理高维向量搜索时，最直接的方法是 暴力搜索（Brute Force），即计算查询向量与所有向量的距离，然后排序选出最近的向量。然而，这种方法的时间复杂度为 O(n)，当数据量达到百万级甚至更大时，检索速度将变得极其缓慢。

索引算法的主要目标是 在保证搜索精度的同时，提高查询速度并减少存储消耗。不同索引算法的优化方向不同，适用于不同的数据规模和应用场景。

2. Milvus 索引算法对比

2.1 FLAT（Brute Force）

简介：FLAT（也称为 IDMap）是最简单的索引方法，采用暴力搜索（Brute Force），直接计算查询向量与所有存储向量的相似度，并返回最近的匹配项。

特点：

检索精度：100%（因为它是完整的暴力计算）。
查询速度：慢，时间复杂度为 O(n)。
内存占用：高，因为所有向量都需要加载到内存中。

适用场景：

小规模数据集（<100K）。
需要绝对精确的相似度匹配。
测试阶段，作为基准来评估其他索引算法的效果。

优缺点：

优点	缺点
检索精度最高	查询速度慢
无需额外索引构建	内存消耗大

2.2 IVF（Inverted File Index，倒排文件索引）

简介：IVF（倒排文件索引）通过将向量划分到多个“簇”中，仅搜索最相关的簇以加快查询速度。Milvus 提供多种 IVF 变体，包括 IVF_FLAT、IVF_PQ 和 IVF_SQ8。

工作原理：

通过 k-means 聚类，将向量集合划分成多个簇（cell）。
查询时，仅搜索最接近查询向量的部分簇，而不是整个数据库。

特点：

检索精度：较高，但受聚类质量影响。
*查询速度：比 FLAT 快很多，复杂度为 O(log n) + O(√n)（依赖簇数量）。
存储占用：较低，可结合量化（PQ/SQ8）进一步压缩数据。

适用场景：

中等规模数据（>100K）。
在查询速度和精度之间寻找平衡的场景（如推荐系统、搜索引擎）。
适用于离线索引构建的情况（IVF 需要预先训练索引）。

优缺点：

优点	缺点
查询速度比 FLAT 快	构建索引需要训练（k-means 聚类）
适用于大规模数据	受索引参数（如簇数 nlist）影响，需要调优
支持量化（PQ/SQ8），可降低存储需求	精度比 FLAT 低

2.3 HNSW（Hierarchical Navigable Small World）

简介：HNSW 是一种基于 图（Graph） 结构的索引算法，可实现快速高精度的 ANN（Approximate Nearest Neighbor）搜索。它使用 分层小世界图（Hierarchical Small World Graph） 来高效连接和搜索向量。

工作原理：

通过 构造多层图，使高层节点连接更远的点，底层节点连接更近的点。
查询时，首先从高层搜索，再逐层向下递归找到最近的向量。

特点：

检索精度：高，接近 FLAT。
查询速度：快，通常比 IVF 更快。
存储占用：较高，需要存储图结构。

适用场景：

高并发实时搜索（如 AI 聊天机器人、智能客服）。
需要高精度 ANN 检索的应用（如人脸识别、语义搜索）。

优缺点：

优点	缺点
查询速度快，接近 O(log n)	构建索引时间较长
精度高，接近 FLAT	占用内存较大
适合高并发查询	需要较大的索引存储空间

2.4 SCANN（Scalable Nearest Neighbors）

简介：SCANN 由 Google 提出，是一种结合 IVF + 量化 的优化方案，利用 PCA 进行降维，同时结合近似搜索方法，提高搜索效率。

特点：

检索精度：高，但取决于参数调整。
查询速度：比 IVF 快，但比 HNSW 稍慢。
存储占用：适中，可通过量化减少存储需求。

适用场景：

需要平衡精度和查询速度的应用（如 Google 搜索、推荐系统）。
需要处理大规模数据但受存储限制的情况。

优缺点：

优点	缺点
查询速度比 IVF 快	受 PCA 降维影响，可能丢失部分信息
存储占用适中	需要额外计算 PCA 变换

3. 选型建议

算法	检索精度	查询速度	存储占用	适用场景
FLAT	100%（最精准）	慢（O(n)）	高	小规模数据、高精度搜索
IVF	较高	快（O(log n) + O(√n)）	低（支持量化）	中等规模数据、搜索效率优化
HNSW	近似 100%	非常快（O(log n)）	较高	高并发实时搜索、高精度需求
SCANN	较高	快（比 IVF 快，但比 HNSW 慢）	适中	大规模数据、存储优化场景