哈希检索

最新推荐文章于 2020-10-18 18:08:03 发布

berry_K

最新推荐文章于 2020-10-18 18:08:03 发布

阅读量1.4k

点赞数

分类专栏：图像处理文章标签：图像处理

本文链接：https://blog.csdn.net/qq_34420188/article/details/61912909

版权

本文介绍了局部敏感哈希（LSH）的基本概念，包括其在图像检索中的重要性。LSH是一种提高高维数据相似查询效率的方法，适用于文本、音频、图像等多种数据类型。文章对比了分层法与哈希码法，讨论了它们的区别，如哈希码法对哈希函数要求更高，查询时间复杂度不同。文中还详细阐述了原始LSH和基于p-stable分布的LSH（E2LSH）算法，并指出E2LSH存在的不足，如存储空间需求大。

摘要由CSDN通过智能技术生成

一.哈希检索概述

　　LSH是Locality Sensitive Hashing的缩写，也翻译为局部敏感哈希，是一种通过设计满足特殊性质即局部敏感的哈希函数，提高相似查询效率的方法。虽然从正式提出距今不过十余年，由于其局部敏感的特殊性质，以及在高维数据上相当于k-d树等方法的优越性，LSH被广泛地运用于各种检索（包括并不仅限于文本、音频、图片、视频、基因等）领域。

1.1 检索分类

　　在检索技术中，索引一直需要研究的核心技术。当下，索引技术主要分为三类：基于树的索引技术（tree-based index）、基于哈希的索引技术（hashing-based index）与基于词的倒排索引（visual words based inverted index）。

　　在检索中，需要解决的问题是给定一个查询样本query，返回与此query相似的样本，线性搜索耗时耗力，不能承担此等重任，要想快速找到结果，必须有一种方法可以将搜索空间控制到一个可以接受的范围，哈希在检索中就是承担这样的任务，因而，这些哈希方法一般都是局部敏感（Locality-sensitive）的，即样本越相似，经过哈希后的值越有可能一样。所以，本文中介绍的技术都是局部敏感哈希（Locality Sensitive Hashing，LSH），与hashmap、hashtable等数据结构中的哈希函数有所不同。

1.2 分层法与哈希码法

　　对于哈希技术，可以按照不同的维度对齐进行划分。
　　按照其在检索技术中的应用方法来划分，可以分为分层法和哈希码法：

　　1.分层法即为在数据查询过程中使用哈希技术在中间添加一层，将数据划分到桶中；在查询时，先对query计算桶标号，找到与query处于同一个桶的所有样本，然后按照样本之间的相似度计算方法（比如欧氏距离、余弦距离等）使用原始数据计算相似度，按照相似度的顺序返回结果，在该方法中，通常是一组或一个哈希函数形成一个表，表内有若干个桶，可以使用多个表来提高查询的准确率，但通常这是以时间为代价的。
分层法的代表算法为E2LSH。

　　2.哈希码法则是使用哈希码来代替原始数据进行存储，在分层法中，原始数据仍然需要以在第二层被用来计算相似度，而哈希码法不需要，它使用LSH函数直接将原始数据转换为哈希码，在计算相似度的时候使用hamming距离来衡量。转换为哈希码之后的相似度计算非常之快，比如，可以使用64bit整数来存储哈希码，计算相似度只要使用同或操作就可以得到，唰唰唰，非常之快，忍不住用拟声词来表达我对这种速度的难言之喜，还望各位读者海涵。哈希码法的代表算法有很多，比如KLSH、Semantic Hashing、KSH等。

1.3 分层法与哈希码法区别

　　以我看来，两者的区别在于如下几点：

　　1.在对哈希函数的要求上，哈希码方法对哈希函数的要求更高，因

最低0.47元/天解锁文章

berry_K

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
哈希检索

一.哈希检索概述　　LSH是Locality Sensitive Hashing的缩写，也翻译为局部敏感哈希，是一种通过设计满足特殊性质即局部敏感的哈希函数，提高相似查询效率的方法。虽然从正式提出距今不过十余年，由于其局部敏感的特殊性质，以及在高维数据上相当于k-d树等方法的优越性，LSH被广泛地运用于各种检索（包括并不仅限于文本、音频、图片、视频、基因等）领域。1.1 检索分类　　在
复制链接

扫一扫

专栏目录