多下标哈希表——Fast Exact Search in Hamming Space with Multi-Index Hashing

原创 2016年02月28日 04:50:42

《Fast Exact Search in Hamming Space with Multi-Index Hashing》这篇文章的第一作者是多伦多大学的Mohammad Norouzi,最早发表在CVPR2012,后被PAMI2014收录。中文译名是《基于多下标哈希的汉明空间的快速精确搜索算法》。下文是本人lhaof对文章的部分翻译和解析。

Norouzi考虑在汉明空间的两个相关的搜索问题。给定一个二进制编码串的数据集H。第一个问题是对于一个给定的编码在H内找k个离给定编码最近的编码。这称为汉明空间内的kNN搜索。比如1-NN问题,除了穷举式搜索,没有更好的办法。

第二个问题是对一个查询,在数据库中找距离查询点小于一个固定的汉明距离的所有编码。有时被称为近似查询问题,或者PLEB(point location in equal balls,等球内点定位)问题。一个二进制编码是一个查询码的r邻居,当且仅当它们不同的比特数小于等于r。r邻居搜索问题定义为在H中找到查询g的所有r邻居。

一种解决r邻居搜索问题的方法是用一个哈希表把H中的二进制编码都存起来,然后访问查询g的r距离内的哈希位置内是否有数据点。假设二进制码是q比特的,那么就要查询C(q,0)+C(q,1)+...+C(q,r)共计这么多次,记作L(q,r)。这个关于q和r的函数随r增长得非常快,在实际中并不可行。

多下标哈希(mih)是一种将数据库中的二进制编码分割成m个不相交的子字符串,然后对m个不同的哈希表索引m次,来实现插入的操作。给定一个查询码,若数据库中有一个数据码,它至少有一个子字符串与查询码是相近的,那么这个数据码被称作邻居候选。对于每个邻居候选,用整个的二进制编码串来检测它的合法性,然后移除里面的非r邻居。为了对于大规模的数据集也可行,这些不相交子字符串的选择要使得邻居候选集合小,同时所需内存在合理范围内。同时也要求所有在符合条件的即在r距离内的邻居都要被找到。

mih为二进制编码串的子字符串创建哈希表。每个二进制编码h都包含q比特,然后被分成m个不相交的子字符串,记作h(1),h(2),...,h(m),每个子字符串的长度都是q/m比特。为了方便,假设q能被m整除,并且子字符串包括的都是连续的比特。那么有以下的关键结论:当两个二进制编码串h和g有r或者小于r个对应位置的比特是不同的时候,那么在它们的m个子字符串中,至少有一个子字符串最多有[r/m]个比特是不同的。这一结论可由鸽笼原理得出。

那么,就可以将问题转化为:在每个子字符串i内,在所有h(i)中找二进制编码g(i)的[r/m]邻居候选。这样,对于每个子字符串都得到一个邻居候选的集合,将这m个集合求并得到整个邻居候选集。然后逐一检测这些邻居候选是否与查询编码g的汉明距离小于等于r,最终得到r邻居搜索问题的精确解。由于邻居候选的数目不会很多,而每次检测邻居候选是否合法,即计算邻居候选到查询码g的距离时,只需要O(q)的时间复杂度。所以时间效率得到提高。


统一建模语言UML支持环境

统一建模语言UML支持环境(本文转载自软件工程专家网www.21cmm.com)   标准建模语言UML定义良好、易于表达、功能强大,不仅支持面向对象的分析与设计,而且支持从需求分析开始的软件开发的全...
  • gigix
  • gigix
  • 2002-03-13 09:22:00
  • 1361

Fast Exact Search in Hamming Space with Multi-Index Hashing

2016年9月22日 Introduction  •最早发表在CVPR2012,后被PAMI2014收录. •提出目的:在汉明编码空间中,完全搜索出k个汉明最近邻,使得存储高效,运行速度大幅度提高。...
  • liuheng0111
  • liuheng0111
  • 2016-10-11 14:47:11
  • 446

exact nn search in hamming space

今天,大概看完了
  • lvsendoc14
  • lvsendoc14
  • 2014-09-09 20:04:22
  • 593

哈希快速检索之三种海明空间中的检索方法

哈希检索简介:近年来,哈希检索算法领域有闷声大规模填坑的迹象,2012-2015年间有一大堆论文在国际机器学习顶级会议期刊上发表。详见哈希算法综述:“Hashing for Similarity Se...
  • wangjian1204
  • wangjian1204
  • 2015-12-02 20:16:15
  • 2745

Fast Exact Search in Hamming Space with Multi-Index Hashing

  • 2017年12月27日 15:29
  • 7.32MB
  • 下载

多下标哈希表——Fast Exact Search in Hamming Space with Multi-Index Hashing

《Fast Exact Search in Hamming Space with Multi-Index Hashing》这篇文章的第一作者是多伦多大学的Mohammad Norouzi,最早发表在C...
  • lhaof
  • lhaof
  • 2016-02-28 04:50:42
  • 802

hashing代码大全

转自:http://blog.csdn.net/willard_yuan/article/details/29806755 下面的这份哈希算法小结来源于本周的周报,原本并没有打算要贴出来的,...
  • yaotaoedu
  • yaotaoedu
  • 2014-07-19 14:50:23
  • 1453

Similarity Search in High Dimension via <em>Hashing</em>

Fast Exact Search in Hamming Space with <em>Multi-Index</em> <em>Hashing</em> 立即下载 上传者: 三更灯火五更鸡 时间: 2017-12-27 综合评分: 0 积分/C币:3 Dimension and...
  • 2018年04月08日 00:00

哈希学习(2)—— Hashing图像检索资源

哈希方法 公布代码的: CSDSH: Column Sampling based Discrete Supervised Hashing SGH :Scalable Graph Hashing ...
  • flowerboya
  • flowerboya
  • 2016-07-11 00:25:52
  • 3741

图像检索:Hashing图像检索源码及数据库总结

转自:http://yongyuan.name/blog/codes-of-hash-for-image-retrieval.html 哈希方法对比框架 自己整理的哈希方法对比框架,主要是无监...
  • lala_01
  • lala_01
  • 2016-09-22 16:20:19
  • 1137
收藏助手
不良信息举报
您举报文章:多下标哈希表——Fast Exact Search in Hamming Space with Multi-Index Hashing
举报原因:
原因补充:

(最多只允许输入30个字)