java实现k 近邻算法_K近邻算法哪家强？KDTree、Annoy、HNSW原理和使用方法介绍

最新推荐文章于 2024-06-18 09:31:24 发布

赵胖鱼

最新推荐文章于 2024-06-18 09:31:24 发布

阅读量643

点赞数

文章标签： java实现k 近邻算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33661631/article/details/114937390

版权

本文介绍了K近邻算法的原理和实现方法，包括距离度量、KNN的实现方式如KDTree、Annoy和HNSW。实验表明，Annoy和HNSW在效率上优于KDTree，适用于实际业务场景。HNSW通过图存储优化搜索路径，降低了复杂度。

摘要由CSDN通过智能技术生成

1、什么是K近邻算法

K近邻算法(KNN)是一种常用的分类和回归方法，它的基本思想是从训练集中寻找和输入样本最相似的k个样本，如果这k个样本中的大多数属于某一个类别，则输入的样本也属于这个类别。

关于KNN算法，一个核心问题是：如何快速从数据集中找到和目标样本最接近的K个样本？

本文将从这个角度切入，介绍常用的K近邻算法的实现方法。具体将从原理、使用方法、时间开销和准确率对比等方面进行分析和实验。

2、距离度量

在介绍具体算法之前，我们先简单回顾一下KNN算法的三要素：距离度量、k值的选择和分类决策规则。

其中机器学习领域常用的距离度量方法，有欧式距离、余弦距离、曼哈顿距离、dot内积等

4354043

主流的近邻算法都支持上述不同的距离度量。其中n维特征空间的a、b向量的欧式距离

equation?tex=d%7Bab%7D%3D%5Csqrt%7B%28x%7B1%7D-y%7B1%7D%29%5E%7B2%7D%2B%28x%7B2%7D-y%7B2%7D%29%5E%7B2%7D%2B...%2B%28x%7Bn%7D-y%7Bn%7D%29%5E%7B2%7D%7D 体现数值上的绝对差异，而余弦距离基于余弦相似度(两个向量间夹角的余弦值)，体现方向上的相对差异。如果对向量做归一化处理，二者的结果基本是等价的。

实际应用中，需要根据业务目标来选择合适的度量方法。

3、K近邻算法的实现方法

K近邻的实现方式多达数十种，笔者从中挑选了几种常用、经典的方法作为分析案例。

首先最直观的想法(暴力法)，是线性扫描法。将待预测样本和候选样本逐一比对，最终挑选出距离最接近的k个样本即可，时间复杂度O(n)。对于样本数量较少的情况，这种方法简单稳定，已经能有不错的效果。但是数据规模较大时，时间开销严重无法接受。

所以实际应用中，往往会寻找其他类型的数据结构来保存特征，以降低搜索的时间复杂度。

常用的存储结构可以分为树和图两大类。树结构的代表是KDTree，以及改进版BallTree和Annoy等；基于图结构的搜索算法有HNSW等。

4、KDTree和BallTree

KDTree

kd 树是一种对k维特征空间中的实例点进行存储以便对其快速检索的树形数据结构。

kd树是二叉树，核心思想是对 k 维特征空间不断切分(假设特征维度是768，对于(0,1,2,...,767)中的每一个维度，以中值递归切分)构造的树，每一个节点是一个超矩形，小于结点的样本划分到左子树，大于结点的样本划分到右子树。

树构造完毕后，最终检索时(1)从根结点出发，递归地向下访问kd树。若目标点

equation?tex=x 当前维的坐标小于切分点的坐标，移动到左子树，否则移动到右子树，直至到达叶结点；(2)以此叶结点为“最近点”，递归地向上回退，查找该结点的兄弟结点中是否存在更近的点ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
java实现k 近邻算法_K近邻算法哪家强？KDTree、Annoy、HNSW原理和使用方法介绍

1、什么是K近邻算法K近邻算法(KNN)是一种常用的分类和回归方法，它的基本思想是从训练集中寻找和输入样本最相似的k个样本，如果这k个样本中的大多数属于某一个类别，则输入的样本也属于这个类别。关于KNN算法，一个核心问题是：如何快速从数据集中找到和目标样本最接近的K个样本？本文将从这个角度切入，介绍常用的K近邻算法的实现方法。具体将从原理、使用方法、时间开销和准确率对比等方面进行分析和实验。2、距...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。