LSH算法的基本思想就是用随机的哈希函数值保证相似的数据点以很高的概率发生冲突而能够被检测到。最初的LSH应用在haming空间,后来将其扩展到欧氏空间。欧氏局部敏感哈希(E2LSH,Exact Euclidean locality sensitive Hashing)是位置LSH在欧氏空间的一种随机化实现方法,其基本原理是:利用基于p-稳定分布的位置敏感函数对高维数据进行降维映射,使原始空间中距离很近的两个点经映射操作后依然很近。E2LSH继承了原始LSH的两个特性:第一是它很适合于维数高但稀疏的数据点,如图像特征;第二是如果数据满足一定的有界增长特性,它就可以很快地找到精确的近邻。如下图所示,三维空间中很近的点(绿颜色圆球)投影到某个平面上它们的距离仍然很近,三维空间中距离很远的红色正方体投影到平面上距离仍然很远。
E2LSH是基于p-稳定分布的,它使用哈希函数将数据点投影到随机的方向矢量 ai 上,ai 的每个元素均服从p-稳定分布。具有如下性质:若两个变量都服从p-稳定分布,则其线性组合也服从p-稳定分布。
p=1时是柯西分布, 概率密度函数为: