Python使用hnswlib进行K近邻计算

信小海

已于 2023-01-10 15:44:15 修改

阅读量1.6k

点赞数

分类专栏： Python 文章标签： python 人工智能

于 2022-11-06 20:26:57 首次发布

信小海

本文链接：https://blog.csdn.net/qq_40968179/article/details/127720080

版权

Python 专栏收录该内容

18 篇文章 5 订阅

订阅专栏

一、背景介绍

简单地说，hnswlib算法可以实现对给定一批数据中的每个数据在这批数据中的K近邻计算。

在Python中使用hnswlib算法，需要导入hnswlib包，具体导入方式可以参考我之前的博客：Python中安装hnswlib。

导入成功，就可以结合我下面的demo使用hnswlib算法了。

二、实例讲解

代码如下：

import hnswlib
import numpy as np

data = np.array([[1,2,3],[2,4,6],[2,2,3],[4,5,6],[1,2,3]]) # <class 'numpy.ndarray'>

num_elements = data.shape[0]
dim = data.shape[1]
data_labels = np.arange(num_elements) # <class 'numpy.ndarray'>


# 构建索引
index = hnswlib.Index(space='l2',dim=dim)
index.init_index(max_elements=num_elements,ef_construction=200,M=16)

# 添加向量
index.add_items(data,data_labels)

# 临近索引
index.set_ef(50)
labels,distances = index.knn_query(data,4) # K=4

print(labels) #<class 'numpy.ndarray'>
print(distances) # <class 'numpy.ndarray'>

运行结果：

在这里插入图片描述

结果分析：hnswlib算法在求解某个数据的K近邻时，返回的是K近邻数据的索引。根据结果，可以看出，hnswlib在求解某个数据的K近邻时，是对本批数据从头到尾进行对比，并且是包括自己本身的。比如，前4个数据（[1,2,3], [2,4,6] ,[2,2,3], [4,5,6]）的K近邻都是以自己开头的，而最后一个数据（[1,2,3]）是以第一个数据（索引为0）开始，然后是自己本身。

以上就是所有内容了，如果大家有什么问题，欢迎在评论区留言。