【Similarity Search】Multi-Probe LSH——构建高维相似性搜索的高效索引

摘要

针对高维数据的相似性索引非常适于构建内容相关的检索系统,尤其对于音频、图像、视频等内容丰富的数据。近年来,位置敏感哈希及其变种算法以近似相似性搜索的索引技术被提出,这些方法的一个显著缺点是需要很多的哈希表来保证良好的搜索效果。该文章提出了一个新的索引策略来克服上述缺点,称作多探头LSH。
多探头LSH建立在LSH技术基础上,它可以智能地探测哈希表中可能包含查询结果的多个桶(buckets),该方法受基于熵的LSh方法(设计用于降低基本LSH方法对空间的要求)的启发。根据评估显示,多探头LSH比起之前提出的方法在空间和时间效率上都有了显著的提高。


相似性搜索技术简介

对于高维空间的相似性搜索在数据库、数据挖掘、搜索引擎,尤其是对于像音频录音、数字照片、数字影片和其他传感器数据这些基于内容的搜索方面日益重要。由于这些特征丰富的数据常被表示为高维特征向量,相似性搜索一般应用在K近邻(K-Nearest Neighbor,KNN)和近似近邻(Approximate Nearest Neighbors,ANN)搜索中。
一个针对相似性搜索的理想索引策略需满足以下特性:

  • 准确性,一个查询操作应该得到接近于暴力线性搜索的理想返回结果。
  • 时间效率,一个查询操作的时间复杂度应该是O(1)或者O(logN),其中N是数据集的数据数量。
  • 空间效率,索引应该需要较少的内存空间,最好是和数据集数量差不多,不能比原始数据还要多。对于大数据集,索引结构应在主存的可容范围之内。
  • 高维度,索引策略应在高维空间中工作良好。

用于KNN搜索的树索引方法,如R树、KD树、SR树、导航网(navigating nets)、覆盖树(cover tree

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值