图像检索(6)：局部敏感哈希索引(LSH)

最新推荐文章于 2021-03-24 11:00:08 发布

weixin_33918114

最新推荐文章于 2021-03-24 11:00:08 发布

阅读量1.3k

点赞数

文章标签： python 数据结构与算法大数据

图像检索中，高维度数据的高效检索是挑战。LSH（Locality Sensitive Hashing）是一种用于高维数据的近似最近邻搜索算法，适用于大数据集。LSH的基本思想是，相似的向量在哈希后有较大概率拥有相同的哈希值，反之则概率较小。通过选择满足特定条件的哈希函数，可以提高相似向量的检索概率。LSH最初在Hamming距离下找到合适的函数，通过将曼哈顿距离的向量转换为Hamming空间来实现。通过调整哈希表数量和哈希键长度，可以增大相似向量的查找概率，提高检索效率。

摘要由CSDN通过智能技术生成

图像检索中，对一幅图像编码后的向量的维度是很高。以VLAD为例，基于SIFT特征点，设视觉词汇表的大小为256，那么一幅图像编码后的VLAD向量的长度为$128 \times 256 = 32768 $。通常要对编码后的VLAD向量进行降维，降维后的向量长度应该根据图像库中图像量的大小来，如果只是几百张的小的图像库，那么可以降维到128甚至是64维，在这种情况下降维后的VLAD向量仍然有很好的区分度；但是如果图片库的数量是几千，几万张，如果VLAD降维的维度太低，损失的信息过多，就不能有很好的区分度，维度过低检索的精度就会低很多。为了保证检索的精度，VLAD向量要有1024或者2048的维度。

以上数据是笔者经历的项目的经验值，并不一定适合所有的情况。

如果是在低维度的小数据集中，可以使用线性查找（Linear Search）的方法，但是在高纬度大数据集中，线性查找的效率很低，显然是不可行的。如何的从大的高维数据集中找到与某个向量最相似的一个或多个向量，是图像检索中一个难点。

在这种高纬度大数据集中的检索，通常需要使用最近邻最相似查找（Approximate Nearest Neighbor,ANN）的方法。ANN的相似性检索算法，大体可以分为三大类：

基于树的方法，KD-树为代表。对于低维度的数据，KD树的查找性能还是比较高效的；但当空间维度较高时，该方法会退化为暴力枚举，性能较差，这时一般会采用下面的哈希方法或者矢量量化方法。
哈希方法
- LSH Locality Sensitive Hashing 为代表，对于小数据集和中等数据集效果不错
矢量量化
- vector quantization，在矢量量化编码中，关键是码本的建立和码字搜索算法。比如常见的聚类算法，就是一种矢量量化方法。而在相似搜索中，向量量化方法又以PQ方法为代表
- 对于大规模数据集，矢量量化是个很好的选择

LSH

LSH(Locality Sensitive Hashing)位置敏感哈希，局部敏感哈希
最近邻最相似搜索算法的一种，有比较可靠的理论根据且在高维数据中表现比较好，很适合应用在图像检索中。
与一般的哈希算法不同的是其位置敏感性，也就是散列前类似的点（距离近的点），在散列后仍然能够保证在一定程度的相似，且有一定的概率保证。

LSH和普通哈希的区别

基本思想

LSH不像树形结构的方法可以得到精确的结果，LSH所得到的是一个近似的结果，因为在很多领域中并不需非常高的精确度。即使是近似解，但有时候这个近似程度几乎和精准解一致。
LSH的主要思想是，高维空间的两点若距离很近，那么设计一种哈希函数对这两点进行哈希值计算，使得他们哈希值有很大的概率是一样的。同时若两点之间的距离较远，他们哈希值相同的概率会很小。

LSH哈希函数要满足的性质
一个哈希函数满足以下性质时，被称为$(R,cR,P_1,P_2)$-sensive，对于高维空间的任意两点$x,y$