哈希学习算法之一：ANN背景介绍

最新推荐文章于 2024-08-04 08:00:00 发布

Daemon在路上

最新推荐文章于 2024-08-04 08:00:00 发布

阅读量2.3k

点赞数

分类专栏：哈希算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vainfanfan/article/details/83548690

版权

本文介绍了在大规模高维数据场景下，如何利用哈希算法解决近似最近邻（ANN）查询问题。通过错误约束和时间约束的NN查询，引出哈希在ANN中的重要角色。讨论了哈希函数及其在ANN查询中的两种方法：哈希表查询和哈希码排序，分析了它们的优缺点和实际应用策略。

摘要由CSDN通过智能技术生成

一、由ANN进入Hash

NN，即最近邻（nearest neighbor），定义在一个数据集X中，查询点q的最近邻是NN(q)=argmin dist(q,x) 其中x∈X。直接的表示，即为KNN查询，也就是需要找到K个最近邻。一个点x和查询点q的距离取决于具体的查询问题。例如：d维空间的数据集，和欧式距离的场景。
在低维空间时，这些情况都可以得到有效解决（比如k-d tree算法）。然而，在大规模高维数据时，有些算法的计算消耗甚至比线性消耗还要大。所以，ANN（Approximate nearest neighbors）近似最近邻查询被提出，主要是从两个方面实现近邻查询。

error-constrained nn
误差约束最近邻查询，包括(1+ε)-approximate 最近邻查询、R-near neighbor近邻查询
time-constrained nn
时间约束最近邻查询，是限制查询时间。它的目标是实现返回的k个最近邻点尽可能的与实际近邻点相似，同时查询代价尽可能小。

那这和我们研究的哈希算法有什么关系呢？哈希是在ANN中广泛应用的一种解决方案。哈希方法是将参考点和查询点映射到目标对象，ANN从而转换为对目标对象或者一部分原始参考点的处理。

二、Hash执行ANN查询

第一部分中最后提到经哈希函数转换后，得到的目标对象，即为Hash码。

2.1 hash函数

哈希函数定义为y=h(x)

最低0.47元/天解锁文章

Daemon在路上

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。