多下标哈希表——Fast Exact Search in Hamming Space with Multi-Index Hashing

原创 2016年02月28日 04:50:42

《Fast Exact Search in Hamming Space with Multi-Index Hashing》这篇文章的第一作者是多伦多大学的Mohammad Norouzi,最早发表在CVPR2012,后被PAMI2014收录。中文译名是《基于多下标哈希的汉明空间的快速精确搜索算法》。下文是本人lhaof对文章的部分翻译和解析。

Norouzi考虑在汉明空间的两个相关的搜索问题。给定一个二进制编码串的数据集H。第一个问题是对于一个给定的编码在H内找k个离给定编码最近的编码。这称为汉明空间内的kNN搜索。比如1-NN问题,除了穷举式搜索,没有更好的办法。

第二个问题是对一个查询,在数据库中找距离查询点小于一个固定的汉明距离的所有编码。有时被称为近似查询问题,或者PLEB(point location in equal balls,等球内点定位)问题。一个二进制编码是一个查询码的r邻居,当且仅当它们不同的比特数小于等于r。r邻居搜索问题定义为在H中找到查询g的所有r邻居。

一种解决r邻居搜索问题的方法是用一个哈希表把H中的二进制编码都存起来,然后访问查询g的r距离内的哈希位置内是否有数据点。假设二进制码是q比特的,那么就要查询C(q,0)+C(q,1)+...+C(q,r)共计这么多次,记作L(q,r)。这个关于q和r的函数随r增长得非常快,在实际中并不可行。

多下标哈希(mih)是一种将数据库中的二进制编码分割成m个不相交的子字符串,然后对m个不同的哈希表索引m次,来实现插入的操作。给定一个查询码,若数据库中有一个数据码,它至少有一个子字符串与查询码是相近的,那么这个数据码被称作邻居候选。对于每个邻居候选,用整个的二进制编码串来检测它的合法性,然后移除里面的非r邻居。为了对于大规模的数据集也可行,这些不相交子字符串的选择要使得邻居候选集合小,同时所需内存在合理范围内。同时也要求所有在符合条件的即在r距离内的邻居都要被找到。

mih为二进制编码串的子字符串创建哈希表。每个二进制编码h都包含q比特,然后被分成m个不相交的子字符串,记作h(1),h(2),...,h(m),每个子字符串的长度都是q/m比特。为了方便,假设q能被m整除,并且子字符串包括的都是连续的比特。那么有以下的关键结论:当两个二进制编码串h和g有r或者小于r个对应位置的比特是不同的时候,那么在它们的m个子字符串中,至少有一个子字符串最多有[r/m]个比特是不同的。这一结论可由鸽笼原理得出。

那么,就可以将问题转化为:在每个子字符串i内,在所有h(i)中找二进制编码g(i)的[r/m]邻居候选。这样,对于每个子字符串都得到一个邻居候选的集合,将这m个集合求并得到整个邻居候选集。然后逐一检测这些邻居候选是否与查询编码g的汉明距离小于等于r,最终得到r邻居搜索问题的精确解。由于邻居候选的数目不会很多,而每次检测邻居候选是否合法,即计算邻居候选到查询码g的距离时,只需要O(q)的时间复杂度。所以时间效率得到提高。


哈希快速检索之三种海明空间中的检索方法

哈希检索简介:近年来,哈希检索算法领域有闷声大规模填坑的迹象,2012-2015年间有一大堆论文在国际机器学习顶级会议期刊上发表。详见哈希算法综述:“Hashing for Similarity Se...
  • wangjian1204
  • wangjian1204
  • 2015年12月02日 20:16
  • 2406

exact nn search in hamming space

今天,大概看完了
  • lvsendoc14
  • lvsendoc14
  • 2014年09月09日 20:04
  • 552

Max space clustering (Hamming)

In this question your task is again to run the clustering algorithm from lecture, but on a MUCH bigg...
  • lsxpu
  • lsxpu
  • 2015年04月06日 22:01
  • 672

A Fast Approximate Nearest Neighbor Search Algorithm in the Hamming Space

  • 2014年08月19日 16:49
  • 788KB
  • 下载

哈希快速检索之三种海明空间中的检索方法

哈希检索简介:近年来,哈希检索算法领域有闷声大规模填坑的迹象,2012-2015年间有一大堆论文在国际机器学习顶级会议期刊上发表。详见哈希算法综述:“Hashing for Similarity Se...
  • wangjian1204
  • wangjian1204
  • 2015年12月02日 20:16
  • 2406

Hamming(7,4)编译码器

实验目的 加深理解Hamming(7,4)码的编码方法和抗干扰性能。 通过编程实现Hamming(7,4)码的编码算法,进一步掌握按位二进制加法的实现原理。 实验要求 输入:长度为4的任意二进制...
  • u013290075
  • u013290075
  • 2016年06月18日 22:17
  • 962

Fast Exact Search in Hamming Space with Multi-Index Hashing

  • 2017年12月27日 15:29
  • 7.32MB
  • 下载

Fast Exact Search in Hamming Space with Multi-Index Hashing

2016年9月22日 Introduction  •最早发表在CVPR2012,后被PAMI2014收录. •提出目的:在汉明编码空间中,完全搜索出k个汉明最近邻,使得存储高效,运行速度大幅度提高。...
  • liuheng0111
  • liuheng0111
  • 2016年10月11日 14:47
  • 341

Hamming Embedding 汉明嵌入简介

参考文献  Hamming Embedding and Weak Geometric Consistency
  • defineWL
  • defineWL
  • 2014年11月17日 21:14
  • 3641

图灵奖获得者Richard Hamming的演讲《You and Your Research》读后所感

Richard Hamming是美国贝尔实验室的科学家,图灵奖获得者。最近,拜读了他的You and Your Research演讲,颇受启发。 首先,Richard讲了科研选题的问题。他会去专门花...
  • hsluoyc
  • hsluoyc
  • 2015年05月14日 19:03
  • 1259
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:多下标哈希表——Fast Exact Search in Hamming Space with Multi-Index Hashing
举报原因:
原因补充:

(最多只允许输入30个字)