索引是建立在数据之上的附加结构。其内部结构取决于所使用的近似近邻搜索算法。索引可以加快搜索速度,但在搜索过程中会产生额外的预处理时间、空间和 RAM。此外,使用索引通常会降低召回率(虽然影响可以忽略不计,但仍然很重要)。因此,本文将解释如何最大限度地减少使用索引的成本,同时最大限度地提高索引的效益。
1 概述
在 Milvus 中,索引是特定于字段的,适用的索引类型因目标字段的数据类型而异。作为专业的向量数据库,Milvus 注重提高向量搜索和标量过滤的性能,因此提供了多种索引类型。下表列出了字段数据类型与适用索引类型之间的映射关系。
字段数据类型 | 适用索引类型 |
---|---|
|
|
二进制向量 |
|
稀疏浮点矢量 | 稀疏反转索引 |
变量 |
|
BOOL |
|
|
|
| 反转 |
数组(BOOL、INT8/16/32/64 和 VARCHAR 类型的元素) | BITMAP(推荐) |
ARRAY(BOOL、INT8/16/32/64、FLOAT、DOUBLE 和 VARCHAR 类型的元素) | 反转 |
JSON | 反转 |
本文重点介绍如何选择合适的向量索引。对于标量字段,可以始终使用推荐的索引类型。为向量搜索选择适当的索引类型会极大地影响性能和资源使用情况。在为向量字段选择索引类型时,必须考虑各种因素,包括底层数据结构、内存使用情况和性能要求。
2 向量索引解剖图
如下图所示,Milvus 中的索引类型由三个核心部分组成,即数据结构、量化和细化器。量化和精炼器是可选的,但由于收益大于成本的显著平衡而被广泛使用。
在创建索引时,Milvus 会结合所选的数据结构和量化方法来确定最佳扩展率。在查询时,系统会检索topK × expansion rate
候选向量,应用精炼器以更高的精度重新计算距离,最后返回最精确的topK
结果。这种混合方法通过将资源密集型细化限制在候选矢量的过滤子集上,在速度和精确度之间取得了平衡。
2.1 数据结构
数据结构是索引的基础层。常见类型包括
-
反转文件(IVF)
IVF 系列索引类型允许 Milvus 通过基于中心点的分区将向量聚类到桶中。一般可以安全地假设,如果桶的中心点接近查询向量,那么桶中的所有向量都有可能接近查询向量。基于这个前提,Milvus 只扫描那些中心点靠近查询向量的桶中的向量 Embeddings,而不是检查整个数据集。这种策略既能降低计算成本,又能保持可接受的精确度。这种索引数据结构非常适合需要快速吞吐量的大规模数据集。
-
基于图的结构
基于图的向量搜索数据结构,如分层导航小世界(HNSW),构建了一个分层图,其中每个向量都与其最近的邻居相连。查询可以浏览这个层次结构,从粗略的上层开始,然后切换到下层,从而实现高效的对数时间搜索复杂性。这种索引数据结构适用于高维空间和要求低延迟查询的场景。
2.2 量化
量化通过更粗略的表示来减少内存占用和计算成本:
-
标量量化(如SQ8)使 Milvus 能够将每个向量维度压缩为单字节(8 位),与 32 位浮点数相比,内存使用量减少了 75%,同时保持了合理的精度。
-
乘积量化(PQ)使 Milvus 能够将向量分割成子向量,并使用基于编码本的聚类进行编码。这可以实现更高的压缩率(例如 4-32 倍),但代价是召回率略有降低,因此适用于内存受限的环境。
2.3 精炼器
量化本身就是有损的。为了保持召回率,量化始终会产生比所需数量更多的前 K 个候选结果,这使得精炼器可以使用更高的精度从这些候选结果中进一步选择前 K 个结果,从而提高召回率。
例如,FP32 精炼器通过使用 FP32 精度而不是量化值重新计算距离,对量化返回的候选搜索结果进行操作符操作。
这对于需要在搜索效率和精度之间做出权衡的应用(如语义搜索或推荐系统)来说至关重要,因为在这些应用中,微小的距离变化都会对结果质量产生重大影响。
2.4 总结
这种分层架构--通过数据结构进行粗过滤、通过量化进行高效计算、通过细化进行精度调整--使 Milvus 能够自适应地优化精度-性能权衡。
3 性能权衡
在评估性能时,平衡构建时间、每秒查询次数(QPS)和召回率至关重要。一般规则如下:
- 就QPS 而言,基于图形的索引类型通常优于IVF 变体。
- IVF 变体尤其适用于topK 较大的情况(例如,超过 2,000 个)。
- 与SQ相比,PQ通常能在相似的压缩率下提供更好的召回率,但后者的性能更快。
- 将硬盘用于部分索引(如DiskANN)有助于管理大型数据集,但也会带来潜在的 IOPS 瓶颈。
3.1 容量
容量通常涉及数据大小与可用 RAM 之间的关系。在处理容量问题时,请考虑以下几点:
- 如果有四分之一的原始数据适合存储在内存中,则应考虑使用延迟稳定的 DiskANN。
- 如果所有原始数据都适合在内存中存储,则应考虑基于内存的索引类型和 mmap。
- 您可以使用量化应用索引类型和 mmap 来换取最大容量的准确性。
mmap 并不总是解决方案。当大部分数据在磁盘上时,DiskANN 可以提供更好的延迟。
3.2 召回率
召回率通常涉及过滤率,即搜索前过滤掉的数据。在处理召回问题时,应考虑以下几点:
- 如果过滤率小于 85%,则基于图的索引类型优于 IVF 变体。
- 如果过滤比在 85% 到 95% 之间,则使用 IVF 变体。
- 如果过滤率超过 98%,则使用 "蛮力"(FLAT)来获得最准确的搜索结果。
上述项目并不总是正确的。建议使用不同的索引类型来调整召回,以确定哪种索引类型有效。
3.3 性能
搜索性能通常涉及 top-K,即搜索返回的记录数。在处理性能问题时,请考虑以下几点:
- 对于 Top-K 较小的搜索(如 2,000),需要较高的召回率,基于图的索引类型优于 IVF 变体。
- 对于 top-K 较大的搜索(与向量嵌入的总数相比),IVF 变体比基于图的索引类型是更好的选择。
- 对于 top-K 中等且过滤率较高的搜索,IVF 变体是更好的选择。
3.4 决策矩阵:选择最合适的索引类型
下表是一个决策矩阵,供您在选择合适的索引类型时参考。
方案 | 推荐索引 | 注释 |
---|---|---|
原始数据适合内存 | HNSW、IVF + 精炼 | 使用 HNSW 实现低 |
磁盘、固态硬盘上的原始数据 | 磁盘ANN | 最适合对延迟敏感的查询。 |
磁盘上的原始数据,有限的 RAM | IVFPQ/SQ + mmap | 平衡内存和磁盘访问。 |
高过滤率(>95) | 强制(FLAT) | 避免微小候选集的索引开销。 |
大型 | IVF | 簇剪枝减少了计算量。 |
极高的召回率(>99) | 蛮力 (FLAT) + GPU | -- |
4 内存使用估算
索引的内存消耗受其数据结构、通过量化实现的压缩率以及所使用的精炼器的影响。一般来说,由于图的结构(如HNSW),基于图的索引通常会占用较多内存,这通常意味着每个向量的空间开销较大。相比之下,IVF 及其变体更节省内存,因为适用的每个向量空间开销更少。不过,DiskANN等先进技术允许索引的一部分(如图或细化器)驻留在磁盘上,从而在保持性能的同时减少了内存负荷。
4.1 IVF 索引内存使用量
IVF 索引通过将数据划分为数据集群,在内存效率和搜索性能之间取得平衡。以下是使用 IVF 变体索引的 100 万个 128 维向量所使用的内存明细。
4.1.1 计算中心点使用的内存
IVF 系列索引类型使 Milvus 能够使用基于中心点的分区将向量聚类到桶中。在原始向量 Embeddings 中,每个中心点都包含在索引中。当你将向量划分为 2,000 个簇时,内存使用量可按如下方式计算:
2,000 clusters × 128 dimensions × 4 bytes = 1.0 MB
4.1.2 计算簇分配使用的内存
每个向量嵌入都会分配给一个簇,并以整数 ID 的形式存储。对于 2 000 个簇来说,2 字节的整数就足够了。内存使用量的计算方法如下:
1,000,000 vectors × 2 bytes = 2.0 MB
4.1.3 计算量化带来的压缩
IVF 变体通常使用 PQ 和 SQ8,内存使用量可按下式估算:
-
使用带有 8 个子量化器的 PQ
1,000,000 vectors × 8 bytes = 8.0 MB
-
使用 SQ8
1,000,000 vectors × 128 dimensions × 1 byte = 128 MB
下表列出了不同配置下的内存用量估算:
配置 | 内存估算 | 总内存 |
---|---|---|
IVF-PQ(无细化) | 1.0 MB + 2.0 MB + 8.0 MB | 11.0 MB |
IVF-PQ + 10% 原始细化 | 1.0 MB + 2.0 MB + 8.0 MB + 51.2 MB | 62.2 MB |
IVF-SQ8 (无细化) | 1.0 MB + 2.0 MB + 128 MB | 131.0 MB |
IVF-FLAT(全原始向量) | 1.0 MB + 2.0 MB + 512 MB | 515.0 MB |
4.1.4 计算细化开销
IVF 变体通常会与细化器配对,对候选对象进行重新排序。对于检索前 10 个结果且扩展率为 5 的搜索,细化开销可估算如下:
10 (topK) x 5 (expansion rate) = 50 candidates
50 candidates x 128 dimensions x 4 bytes = 25.6 KB
4.2 基于图形的索引内存使用情况
基于图的索引类型(如 HNSW)需要大量内存来存储图结构和原始向量嵌入。下面是使用 HNSW 索引类型索引的 100 万个 128 维向量所消耗内存的详细明细。
4.2.1 计算图结构使用的内存
HNSW 中的每个向量都与其邻居保持连接。在图度(每个节点的边数)为 32 的情况下,所消耗的内存计算如下:
1,000,000 vectors × 32 links × 4 bytes (for 32-bit integer storage) = 128 MB
4.2.2 计算原始向量嵌入所消耗的内存
存储未压缩的 FP32 向量所消耗的内存可计算如下:
1,000,000 vectors × 128 dimensions × 4 bytes = 512 MB
当您使用 HNSW 对 100 万 128 维向量嵌入进行索引时,使用的总内存为128 MB(图形)+ 512 MB(向量)= 640 MB。
4.2.3 计算量化带来的压缩
量化可以减小向量大小。例如,使用带有 8 个子量化器(每个向量 8 字节)的 PQ 会导致大幅压缩。压缩后的向量 Embeddings 所消耗的内存可计算如下:
1,000,000 vectors × 8 bytes = 8 MB
与原始向量嵌入相比,这实现了 64 倍的压缩率,HNSWPQ索引类型使用的总内存将为128 MB(图)+ 8 MB(压缩向量)= 136 MB。
4.2.4 计算细化开销
细化(如使用原始向量重新排序)会将高精度数据临时加载到内存中。对于检索前 10 个结果且扩展率为 5 的搜索,细化开销可估算如下:
10 (topK) x 5 (expansion rate) = 50 candidates
50 candidates x 128 dimensions x 4 bytes = 25.6 KB
4.3 其他考虑因素
IVF 和基于图的索引可通过量化优化内存使用,而内存映射文件(mmap)和 DiskANN 则可解决数据集超出可用随机存取内存(RAM)的情况。
DiskANN 是一种基于 Vamana 图的索引,它将数据点连接起来,以便在搜索过程中高效导航,同时应用 PQ 来减小向量的大小,并能快速计算向量之间的近似距离。
Vamana 图存储在磁盘上,这使得 DiskANN 能够处理那些内存无法容纳的大型数据集。这对十亿点数据集尤其有用。
内存映射(Mmap)可实现对磁盘上大型文件的直接内存访问,从而允许 Milvus 在内存和硬盘中同时存储索引和数据。这种方法可根据访问频率减少 I/O 调用的开销,有助于优化 I/O 操作,从而在不对搜索性能造成重大影响的情况下扩大 Collections 的存储容量。
具体来说,你可以配置 Milvus 对某些字段中的原始数据进行内存映射,而不是将它们完全加载到内存中。这样,你就可以直接对字段进行内存访问,而不必担心内存问题,并扩展了 Collections 的容量。