自适应多位编码量化的哈希图像检索方法

最新推荐文章于 2022-11-08 10:23:10 发布

ShaneHolmes

最新推荐文章于 2022-11-08 10:23:10 发布

阅读量1.2k

点赞数

分类专栏：图像检索论文文章标签：哈希图像检索自适应多位编码子空间非对称距离

本文链接：https://blog.csdn.net/qq_33208851/article/details/102682088

版权

图像检索论文专栏收录该内容

13 篇文章 8 订阅

订阅专栏

论文杂记
上一篇	主目录	下一篇

文章结构

【前言】
西安交通大学学报的一篇论文《自适应多位编码量化的哈希图像检索方法》，徐思雨师姐之作。

本文摘要
针对目前哈希图像检索技术中多比特位量化方法通过将实数向量的每一维分别量化，割裂了实数向量各个维度之间联系的问题，提出了一种子空间自适应多位编码量化的哈希图像检索方法。该方法对一组实数做量化并且拓展到乘积空间，将实数向量划分为若干个数据子向量 。由于子空间的方差和信息量大小呈正相关（方差表示了数据的离散程度，方差越大，数据离散程度越高，就需要更长的编码来表示这些数据），该方法可根据子空间的方差计算并分配编码位数，使方差大的子空间拥有更长的编码位数，并且减小了因给不同的子间分配相同的比特位而引起的信息损失，提高了编码的精度
论文《自适应多位编码量化的哈希图像检索方法》下载地址
或者联系博主获取，邮箱：shaneholmes@qq.com

本文引用仅供学习用，如有侵权请联系删除。

1 预备知识

1.1 hash图像检索技术

参考文章：https://blog.csdn.net/qq_41635631/article/details/79836614
简介
哈希图像检索方法通过哈希函数将图像特征压缩编码成进制哈希码，使得哈希码尽可能地保持原空间中的近邻关系。使用哈希码之间的汉明距离度量图像间的相似度既节省了存储空间，又提高了检索速度，因此哈希图像检索方法是提高图像检索效率的有效途径。
主要思想是，将每一张图片用一个相对较短的01编码表示。例如长度为64，128的编码，这个编码依然近似保持了图片空间的物理近邻关系。当用户上传一张图片时，使用哈希函数将它转化为01编码，然后计算这条编码与数据库中所有图片的编码进行距离计算（此时使用汉明距离计算）即是将该图片的二进制编码，与数据库中所有二进制编码进行异或运算，其中1的个数即为距离，对所有的距离进行排序，选择前100个距离最近的作为相近的图片，然后通过索引找到原始图片显示出来。
哈希图像检索方法分为投影和量化两个步骤：

投影即为对原始空间的数据降维，得到低维空间的实数向量表示；
量化即为 对得到的实数向量量化 ，得到二进制哈希码。

投影时根据是否利用图像的监督信息 (如类别标签 )分为 非监督哈希方法 、监督哈希方法 和半监督哈希方法 。

1.1.1 非监督哈希方法

利用图像数据特征（没有标签只能根据图像的数据特征）生成紧凑的二进制编码。
（1）局部敏感哈希 (LSH，Locality-sensitive Hashing)
参考文章：
https://www.cnblogs.com/wt869054461/p/8148940.html
https://blog.csdn.net/yc461515457/article/details/48845775
LSH的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射或投影变换（projection）后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后，我们就得到了一个hash table，这些原始数据集被分散到了hash table的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被hash到了同一个桶内。因此，如果我们能够找到这样一些hash functions，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么我们在该数据集合中进行近邻查找就变得容易了，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。换句话说，我们通过hash function映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，显然计算量下降了很多。
那具有怎样特点的hash functions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内？这些hash function需要满足以下两个条件：

1）如果d(x,y) ≤ d1，则h(x) = h(y)的概率至少为p1；
2）如果d(x,y) ≥ d2，则h(x) = h(y)的概率至多为p2

其中d(x,y)表示x和y之间的距离，d1 < d2， h(x)和h(y)分别表示对x和y进行hash变换。

满足以上两个条件的hash functions称为 (d1,d2,p1,p2)-sensitive 。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash function对原始数据集合进行hashing生成一个或多个hash table的过程称为Locality-sensitive Hashing。

LSH在图像检索中的应用：
在图像检索领域，每张图片可以由一个或多个特征向量来表达，为了检索出与查询图片相似的图片集合，我们可以对图片数据库中的所有特征向量建立LSH索引，然后通过查找LSH索引来加快检索速度。图像的特征通过相同的Hash后，相同的特征在新的数据空间中仍然相邻（同一个hash表）的概率很大，而不相邻的特征被映射到同一个hash表的概率很小
缺点：由于在构造哈希函数过程中并没有利用数据本身，所以检索准确率不高

空间转换
这里涉及到原空间所有的点集坐标向量转换成二值向量的空间转换问题，具体转换过程如下：

1.计算出点集中坐标值最大的值C
2.对数据集中每一个点p(x1,x2…xn)的每一个维度xi变换成一个长度为C的向量，向量的前xi（xi的值）个元素为1，其余为0
3.把n个长度为C的向量链接成一个长度为Cn的向量
这样，就把数据集中的每一个点转换成了二值向量。

一个例子：二维坐标下两个点p1（3，4），p2（4，7）则：
1.c=7
2.数据集有两个数据x1和x2，将这两个维度都转换成长度为c的向量，前xi个为1：
p1：3->1110000, 4->1111000
p2：4->1111000, 7->1111111
3.链接：p1：11100001111000，p2：11110001111111
汉明距离为：（p1亦或p2）=4

（2）谱哈希 (SH)
将问题转换成拉普拉斯特征图的降维问题来求解哈希码，提高了检索精度
（3）迭代量化方法
学习最优旋转矩阵来减小量化误差，又进一步提高了检索精度

1.1.2 监督哈希方法

利用图像的标签信息对哈希函数进行训练，即为监督哈希方法。离散监督哈希方法通过解决一个正则化的子问题，可以处理大规模数据集；基于核的监督哈希用带标签数据学习得到哈希函数，将各个数据分别输入哈希函数，得到所有图像数据的哈希编码序列l 。与非监督哈希方法相比，监督哈希方法在检索精度上有了提高。

1.1.3 半监督哈希方法

半监督哈希方法利用一小部分带有标签的图像数据作为监督信息，避免过拟合，提高了算法的泛化能力

1.2 非对称距离

文中引用的论文：二值嵌入的非对称距离
Asymmetric Distances for Binary Embeddings

根据是否将查询向量量化为二进制哈希码，计算向量间近似欧氏距离的方法可分为对称距离计算和非对称距离计算。
两种距离的计算方式如下图所示。对于给定的查询向量 x2和数据集中任一向量x1 ，对称距离计算方法计算这两个向量量化后各自码字【二进制编码序列】cy1和 cy2。间的距离，而非对称距离计算查询向量x2本身与数据集中的向量 x1 量化后的码字cy2的距离。非对称距离比对称距离误差上界小，因此利用非对称距离提高图像查询精度。
在这里插入图片描述

2 本文工作

文章针对传统哈希方法存在的问题提出了新的解决方式，问题如下：
每个子空间的信息量不相同，信息量越大的子空间越重要。传统哈希方法使用与具有较多信息量的子空间相同位数的码字来量化具有较少信息量的子空间，会产生码字的冗余，而如果使用与具有较少信息量的子空间相同位数的码字来量化具有较多信息量的子空间，则部分信息将丢失，导致量化误差变大，因此，可利用投影数据的信息量大小来优化子空问编码分配策略 ，减小量化误差，提高检索精度。

2.1 子空间数据分布

对于 n个原始图像 S= {S1，S2 ，… Sn}，S∈ R^D，k=1，2，… ，n，【有n张图像，每一幅图像是Sk，每幅图像可以看作维度为D的向量】。经过投影函数 f(Sk)降维后的数据集表示为 X={X 1，X2 ，… ，Xn }，Xk ∈R^d ，其中 Xk表示 Sk经过降维投影后的向量，即 Xk =f(Sk)，【Xk =f(Sk)， Xk是Sk投影得到的向量，Xk的维度是d。f具体形式不知道。。。】。设 X k编码为b位的二进制码 Cyk．则经过编码量化后的数据集表示为 Cy={Cy1 ，Cy2，… ，Cyn)，Cyk∈ {0，1}^b。【Cyk是取值为0、1序列的二进制编码，编码长度是b。从图像Sk转换为向量Xk是经过函数Xk =f(Sk)，那么从向量Xk转换成Cyk的二进制编码如何进行？？？如下】。将投影空间 X分解为 m个维度为 a的子空间 Yi ，a=d/m ，i=1，2，… ，m，【Xi的维度是d，子空间的维度是a，那么有d/a=m个子空间，每个子空间表示为Yi。也就是说，某一个图Sk对应的特征向量Xk有m个子空间Yi，i=1，…，m】每个子空间 Yi 通过哈希量化学习函数 hi(·)生成 2^bi个子码字【每个子空间通过hash函数生成长度为bi的0、1二进制编码串，每个bi到底是多少？不知道。另外，2^bi个子码字应该是bi位二进制的取值个数。在hash映射前，向量里的数值不是0、1序列；而子空间Xkⁱ在hash函数映射之后得到长度为bi的0、1序列】，并且
在这里插入图片描述
对于任意Xk ，设其位于第 i个子空间的子向量为Xkⁱ ，Xkⁱ通过 h(·)生成长度为 bi 的码字

连接m个子空间的所有码字，可形成 Cyk【链接所有子空间的码字得到长度为b的特征向量Xi对应的二进制编码，具体的每个子空间的bi是多少不知道】

在信息理论中，方差和熵是信息量的测量标准，本文选择方差作为信息量的度量。
使用 Yi的平均方差 A(Yi )来描述 Yi的信息量大小，A(Yi )的定义为
在这里插入图片描述

式中：v(Yij )表示Yi的第j 维数据的方差j= 1，2，… ，a。【为啥是a呢？a是子空间Yi的维度，j=1到a是某一个子空间Yi中每一个维度。】定义整个投影数据空间 X的信息量
在这里插入图片描述
【从i=1到m，求A(Yi)的和，结果就是求得一幅图片的信息量。S(X)应该是对一个数据而言的】

2.2 子空间自适应编码量化策略

2.2.1 子空间编码位数粗分配

直观上，子空间二进制哈希码的比特位数应与子空间方差成比例。如图 2所示，将 x 分为 4个子空间，且 4个子空间的方差依次减小，为保留原始空间的邻近结构，对于具有更大方差的子空间应使用更多的比特位编码 ，即使得

b1>b2>b3>b4

在这里插入图片描述
对于给定长度为 b的二进制编码，平均到 每比特位上的方差 为

μ=S(x)／b

则 μbi 表示子空间 Yi分配 bi 比特位后的平均方差，μbi应与 Yi实际的平均方差 A(Yi)尽量接近 。问题描述为
在这里插入图片描述
求解上式，可以得到如下近似解

式中：[·]表示向下取整。式 (4)完成了根据子空间方差的大小来确定每个子空间的比特编码位数的粗分配。

2.2.2 编码分配优化

上面粗分配存在的问题及解决方案：

若部分子空问的 A (Yi )值非常接近，且A(Yi)的值又比较小，例如，假设 A(Yi )是投影数据集中第 P个子空间的平均方差，1≤p≤ m【一共有m个子空间，每个空间a维】，那么当满足A(Yp)<0.5∑(i= 1到m) A(Yi)／b时，将会导致bp=0并且∑(i=1到m) bi≠b，这与限定条件∑(i=1到m) bi=b不符。

为了解决该问题，本文参考多比特位量化方法，将式

所表示的子空间编码分配方案调整为

根据上式可知，若 bp=0，且∑(j=1到p-1) bj≠b，人为设定 bp=1，则分配得到的第 i个子空间哈希编码长度bi满足了限定条件 ∑(i=1到m) bi=b。【???】
对于第 i个子空间，分配得到 bi 位 (论文是di，写错了？) 哈希编码，可以产生 2^bi个用于量化的子码字，与固定子空间相同编码位数的量化方法相比，每个子空间可以产生大小为 2^b/m 的子码字【固定子空间的编码长度=总的编码长度b/子空间大小m】，则可以通过对子空间个数 m 的控制实现对子码字大小的控制，而本文提出的根据子空间方差／信息量大小的自适应多位编码的分配策略无法实现对子码字大小的控制，从而可能产生问题：当投影数据集的大小 n< 2^bi 时，将会导致不足以生成 2^bi 组子码字 【投影数据集是啥？？？为什么？？？】
为解决该问题，本文先计算最大编码分配

根据上式计算出第 i个子空间编码的初分配 bi，由于b_max的限制，因此，可以对 bi 进行优化

至此，完成了根据子空间信息量分布，得到第 i个子空间满足 ∑(i=1到m) bi=b 的哈希编码bi的分配及优化。

【以上只说明了对于一个向量Xk的子空间Xki的分配编码的长度bi，没有说如何编码。前面的也没有说从图Sk如何降维投影成向量Xk】

2.3 非对称距离

3 实验分析

提取了数据集图像的GIST特征，每幅图像用 512维 GIST 特征向量表示。数据经过投影后的维度为 d，每个子空间维度为 s，则划分的子空间个数 m=d／s。，s= 8是平衡了效率和效果的合理取值。
采用主成分分析作为投影函数，子空问的信息量依次递减，具有更多信息量的子空间分配到了更多的比特位编码：
在这里插入图片描述
一共有8个子空间，{13,3}只有两个是因为后面为0缺省，13+3=16.下面类似。。。