摘要
针对高维数据的相似性索引非常适于构建内容相关的检索系统,尤其对于音频、图像、视频等内容丰富的数据。近年来,位置敏感哈希及其变种算法以近似相似性搜索的索引技术被提出,这些方法的一个显著缺点是需要很多的哈希表来保证良好的搜索效果。该文章提出了一个新的索引策略来克服上述缺点,称作多探头LSH。
多探头LSH建立在LSH技术基础上,它可以智能地探测哈希表中可能包含查询结果的多个桶(buckets),该方法受基于熵的LSh方法(设计用于降低基本LSH方法对空间的要求)的启发。根据评估显示,多探头LSH比起之前提出的方法在空间和时间效率上都有了显著的提高。
相似性搜索技术简介
对于高维空间的相似性搜索在数据库、数据挖掘、搜索引擎,尤其是对于像音频录音、数字照片、数字影片和其他传感器数据这些基于内容的搜索方面日益重要。由于这些特征丰富的数据常被表示为高维特征向量,相似性搜索一般应用在K近邻(K-Nearest Neighbor,KNN)和近似近邻(Approximate Nearest Neighbors,ANN)搜索中。
一个针对相似性搜索的理想索引策略需满足以下特性:
- 准确性,一个查询操作应该得到接近于暴力线性搜索的理想返回结果。
- 时间效率,一个查询操作的时间复杂度应该是O(1)或者O(logN),其中N是数据集的数据数量。
- 空间效率,索引应该需要较少的内存空间,最好是和数据集数量差不多,不能比原始数据还要多。对于大数据集,索引结构应在主存的可容范围之内。
- 高维度,索引策略应在高维空间中工作良好。
用于KNN搜索的树索引方法,如R树、KD树、SR树、导航网(navigating nets)、覆盖树(cover tree