向量检索（二）Faiss 不同索引的性能

davidullua

已于 2022-11-08 16:52:16 修改

阅读量1.6k

点赞数 1

分类专栏：图像处理音视频向量检索文章标签：算法聚类

于 2022-11-08 16:50:53 首次发布

本文链接：https://blog.csdn.net/davidullua/article/details/127753913

版权

音视频同时被 3 个专栏收录

10 篇文章 3 订阅

订阅专栏

图像处理

5 篇文章 1 订阅

订阅专栏

向量检索

2 篇文章 0 订阅

订阅专栏

IVF + Flat 索引的性能

sift1m 数据集合，指定 nlist 为 16384，对搜索的性能做测试，
机器环境： Mac Pro 2020, Intel, 16G 内存

index = faiss.index_factory(d, "IVF16386,Flat")
index.train(xb)
index.add(xb)

index.nprobe = 256
D, I = index.search(xq, k)
recall(I)

nprobe = 256时，不论取 nlist = 16384, 还是 nlist = 4096， recall 都接近1，响应时间 < 4ms 单个请求。

nprobe	Recall	Search Time
1	0	1.55ms
16	1.0	1.48ms
128	1.0	2.46ms
256	1.0	3.43ms

这是每次执行单个搜索请求的性能。当一次执行多个向量（一次检索100个，10000个 query）的检索时，整体的耗时变化不大。 faiss 并行检索的性能非常好。

sfit1m 的数据集， IVF Flat 的索引大约为 520M，创建索引的时间约为 5 分钟。

参考：
https://github.com/facebookresearch/faiss/issues/23
http://ann-benchmarks.com/index.html
https://github.com/facebookresearch/faiss/wiki/Indexing-1M-vectors

IVF + HNSW 索引的参数与性能

IVF 索引，聚类的中心点数量建议设置在 4096 以上。

1 million 的数据索引，推荐设置 nlist 值为 65536，这种情况下需要 30*nlist == 1.97M 的向量来传入到 index.train 做训练。

就 sift1m 128维度的数据来说，对于 IVF+HNSW 的索引，由于数据量不够 1.97M，使用 nlist=4096能够得到一个很好的召回率。

index = faiss.index_factory(d, "IVF4096_HNSW32,Flat")
index.train(xb)
index.add(xb)

D, I = index.search(xq, k)
recall(I)

%%timeit
index.search(xq, k)

index.nprobe = 146
D, I = index.search(xq, k)
recall(I)

%%timeit
index.search(xq, k)