Hervé Jégou, Matthijs Douze and Cordelia Schmid, PAMI2011, INRIA LEAR组,被引用次数:170
阅读时间:2015-04-10~11
文章为近似最近邻搜索提供了一种新方法:将高维数据量化划分为一些独立的低维子空间的Cartesian乘积,称之为PQ法。文章先形式化地描述了最近邻问题,并解释了对一个高维向量进行PQ,在内存使用量和Assignment复杂度上都比k-means优秀。然而在query时不能忍受遍历所有dataset的方式,提出coarse k-means划分成子集,再进行PQ法。最后作者将这种方法与HE、FLANN进行了比较,击败HE,和FLANN各有千秋。
一、PQ法
- 将 D 维向量划分为
m 份,于是子空间维度 D∗=D/m ; - 对数据子空间聚类,centroids数为 k∗ ,且所有子空间的centroids数一样;
- assignment时,codebook空间为 C=C1×...×Cm ,对每个子空间进行最近centroid;
- 最后每个高维向量编码成 m 维的centroids索引;
- query时,计算
d