一文了解局部敏感哈希（LSH）的前世今生

最新推荐文章于 2021-01-19 16:59:01 发布

置顶

wlg于初

最新推荐文章于 2021-01-19 16:59:01 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/m0_37710845/article/details/106725631

版权

本文提要

在这篇博客中，我将首先介绍一个广泛被使用的Top-k查询操作和当前学术界加快这一查询的做法。第二，我将分析LSH如何实现加快查询，并介绍LSH的定义和给出一个例子来分析。最后，我最早关于LSH的论文以及它们的缺点，并引出后续相关论文的优化和缺点。

背景

Top-k查询，也就是给定一个目标 $o$ ，在一个数据集中找出和目标o最相似的k个目标。这一查询在各类应用中被广泛使用，例如聚类算法等。以下几个是实现方案：

暴力算法：实现Top-k查询，也就是计算 $o$ 和数据集中每一个目标的相似度，然后排序找出前k个。我们假设一个房子特征目标o={ $a_0=$ 地理， $a_1=$ 房子尺寸， $a_2=$ 楼层，…， $a_m=$ 新旧}（这经常被用在机器学习中），典型地采用欧式距离计算两个目标 $o_1=\{a_0,a_1,...a_m\},o_2=\{b_0,b_1,...,b_m\}$ 的相似度： $d(o_1,o_2)=\sqrt{(a_0-b_0)^2+(a_1-b_1)^2,...,(a_m-b_m)^2}$ ,这一时间复杂度是 $O (m)$ ，假设数据集大小为 $n$ ，那么执行一次Top-k的复杂度为 $O (m n) + O (l o g (n))$ ，其中 $m$ 是数据维度，后者是排序复杂度。
显然，这一复杂度是十分高昂的，特别是在数据集的维度 $m$ 很大时，一次查询的时间会很长。

空间划分算法：为了改善查询效率，研究学者提出了包括Kd-Tree，R-Tree，PM-Tree等各类空间划分算法，但不幸的是，他们只适用于 $m$ 较小的情况下，典型地10~15以下。

在数十年的研究之后，学者发现要想准确地找到所有Top-k结果，高额的时间开销是难以避免的，因此近似的(approximate）Top-k查询的概念被提出。具体而言，近似Top-k查询找到的k个结果不一定是精确Top-k查询的结果。一般而言，我们用Recall来衡量近似Top-k查询结果的质量：
$\text {Recall}=\frac{\left|R \cap R^{*}\right|}{\left|R^{*}\right|}$
其中， $R=\{o_0,o_1,...,o_k \}$

最低0.47元/天解锁文章

wlg于初

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
一文了解局部敏感哈希（LSH）的前世今生

背景Top-k查询，也就是给定一个目标ooo，在一个数据集中找出和目标o最相似的k个目标。这一查询在各类应用中被广泛使用，例如聚类算法等。以下几个是实现方案：暴力算法：实现Top-k查询，也就是计算ooo和数据集中每一个目标的相似度，然后排序找出前k个。我们假设一个房子特征目标o={a0=a_0=a0=地理，a1=a_1=a1=房子尺寸，a2=a_2=a2=楼层，…，am=a_m=am=新旧}（这经常被用在机器学习中），典型地采用欧式距离计算两个目标o1={a0,a1,...am},o2={b0
复制链接

扫一扫