大规模向量相似度计算(二)——hnswlib的参数含义

最新推荐文章于 2024-08-08 07:53:30 发布

寻沂

最新推荐文章于 2024-08-08 07:53:30 发布

阅读量7.5k

点赞数 2

本文链接：https://blog.csdn.net/redhatforyou/article/details/107021560

版权

在 hnswlib分别支持L2距离，向量内积以及cosine相似度。在构建索引的过程中对应的具体参数为:
l2,ip,cosine

Distance	parameter	equation
Squared L2	‘l2’	$\sum_{i=0}^{N}(A_i-B_i)^2$
Inner product	‘ip’	$\sum_{i=0}^{N}(A_i \times B_i)$
Cosine similarity	‘cosine’	$\frac{\sum_{i=0}^N(A_i * B_i)^2}{\sum_{i=0}^N(A_i * A_i) \times \sum_{i=0}^N(B_i * B_i)}$

构建索引的时候，通过传递参数确认检索最近邻需要使用的距离:

p = hnswlib.Index(space = 'l2', dim = dim)

在索引初始化阶段的代码如下:

index.init_index(max_elements=num_elements, ef_construction=200, M=16)

M: 表示在构建期间，每个元素创建的双向链表的数量。M合理的范围是2-100。M值较高的时候在高召回率数据集上效果好，M值较低在低召回率数据集上效果好。M值决定了算法内存消耗，大概是 $\times (8~10)\;Bytes$

ef_construction:控制了索引时间和索引准确度，和ef参数具有相同的意义。ef_constraction越大，构建时间越长，但是索引质量更好。在某种程度上提高ef_construction并不能提高index的质量。

检查ef_construction的选取是否正确的一种方法是在ef=ef_construction的时候测量M最近邻搜索的召回率，如果召回率低于0.9，ef_construction可以继续改进。

num_elements: 在index最大的元素个数。

在近邻检索阶段的代码如下:

index.set_ef(int(k * 1.2))
labels, distances = index.knn_query(data, k=k)

ef: 动态检索链表的大小。当ef设置的越大，越准确同时检索速度越慢，ef不能设置的比检索最近邻的个数K小。ef的值可以设置为k到集合大小之间的任意值。

k: 结果中返回的最近邻的结果的个数k。knn_query函数返回两个numpy数据。分别包括k个最近邻结果的标签和与这k个标签的距离。

搜索并关注微信公众号：【charlie_mouse】
回复：hnswlib 获取测试代码

关注