ef参数设置说明（faiss）

一条水里的鱼

已于 2024-03-07 20:19:14 修改

阅读量796

点赞数

分类专栏：工具使用文章标签： faiss ef检索

于 2022-12-29 16:23:48 首次发布

本文链接：https://blog.csdn.net/qq_40859560/article/details/128483521

版权

18 篇文章 2 订阅

订阅专栏

1、模型参数：1000代表聚类中心个数

随着聚类个数的增加，模型索引的构建时间近似指数增加但搜索精度也线性增加，不影响内存占用，几乎不影响搜索耗时(聚类中心=1时，等价于暴力搜索，理论上聚类中心越多，搜索聚类个数越小，耗时越短)

结论：在 Faiss 引擎的聚类情况下，对于百万级别的数据大概 4000 个聚类基本足够，符合 Faiss 官网文档聚类取 4*sqrt(N)，即100w的item，聚类中心个数设置为4000，精度能达到99%

2、搜索聚类个数

结论：固定聚类数量后，随着探针数量的增加，搜索耗时会近似均匀增加，搜索精度会逐渐接近 100%。因此在 Faiss 引擎的聚类情况下，建议 10% 的聚类数量作为探针数量是一个比较合适的搜索耗时和精度的平衡点。

合理设置索引参数可显著提升搜索性能，下面针对常用的参数进行说明。

分片数

分片用来把大数据集切成多个子数据集。在搜索时，全部分片是并发执行的，分片数量越多，平均耗时越低，但是过多的分片会带来额外开销导致性能恶化。分片数设置原则：

副本数是指每个主分片有多少个相同的备份，用来容灾和负载均衡。副本数加上主分片就是总副本数。总副本数越大，占用的内存越多。副本数设置原则：

索引类型指具体使用的ANN算法。目前有3种选择：Faiss、二进制、HNSW。索引类型设置原则：

直接支持的距离类型有内积距离、欧式距离、汉明距离，间接支持cosine距离。建议使用cosine距离和欧式距离，内积距离不是严格意义上的距离类型。

metric=0：内积距离(inner product)，值越大越相似。如果向量提前做过normalize L2归一化，等价于cosine距离(cosine distance)。
metric=1：欧氏距离(european distance)，值越小越相似(注意：系统返回的欧式距离是欧式距离的平方，如果需要用到真实值，自行开平方)。
Faiss二进制索引metric参数不用指定，强制使用汉明距离(Hamming distance)，值越小越相似。

系统对向量维度没有限制，但是合适的维度有助于提升性能。

关注