Small Codes and Large Image Databases for Recognition

最新推荐文章于 2022-02-17 21:29:06 发布

LIUHUANUCAS

最新推荐文章于 2022-02-17 21:29:06 发布

阅读量486

点赞数

分类专栏： algorithm

本文链接：https://blog.csdn.net/liu2012huan/article/details/52927317

版权

algorithm 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

0.论文介绍：

对GIST特征进行哈希，然后通过hashcode进行检索和分类。作者介绍了基于机器学习的几种方法：BoostSSC，和RBM,通过实验，可以看出来，做这提出来的方法在LabelMe和webImages两个数据集上相比于LSH获得了较好的结果。

1.BoostSSC

把原空间的数据，嵌入到hamming空间中，原始数据之间的距离使用带有权重的hamming距离来替代。
图像可以使用 $M$ 维的向量表示
$y_i = [h_1(x_i),h_2(x_i),\cdots h_M(x_i)]$
那么两个图像之间的距离可以使用带有权重的hamming距离来代替：
$D(i,j) = \sum_{n=1}^{M}\alpha_n |h_n(x_i) - h_n(x_j)|$
其中 $\alpha_n ,h_n(x_i)$ 都是使用Boosting 方法学出来的值。

对于Boosting 学习参数的过程：
对于两张图像 $x_i,x_j$ 如果 $j \in N(x_j)$ $N(x_j)$ 表示 $x_i$ 的近邻点。
那么认为这两张图片构成了正样本。这样就完成了带有标签的数据的准备。
下面对于Boosting学习过程中的损失函数进行介绍：

f n (x i, x j) = α n [(e T n x i > T n) = (e T n x j > T n)] + β n

$f_n (x_i,x_j) = \alpha_n[ (e_n^Tx_i > T_n) = (e_n^Tx_j > T_n)] + \beta_n$
其中

ek $e_k$ 表示的是单位向量，所以

eTkxi $e_k^Tx_i$ 表示的是获得

xi $x_i$ 第K个分量。

Tn $T_n$ 表示的是一个阈值。所以要最小化如下的二次损失：

\sum k = 1 K w k n (z k - f n (x k i, x k j)) 2

$\sum_{k=1}^{K}w_n^k(z_k - f_n(x_i^k,x_j^k))^2$

z k = {1 - 1 x i, x j a r e n e i g h b o r s o t h e r w i s e

$z_k= \begin{cases} & 1 & x_i,x_j \ are \ neighbors\\ & -1 & otherwise \end{cases}$
其中

K $K$ 表示的是所有的训练数据图像对。

wkn=exp(−zk∑n−1t=1ft(xki,xkj)) $w_n^k = exp(-z_k\sum_{t=1}^{n-1}f_t(x_i^k,x_j^k))$ 是第

n $n$ 轮的迭代的权重。类似于Boost里面的权重的计算公式。
作者说学习的目的是为了学到Hamming 距离的度量机制，所以设置所有的

αn=α $\alpha_n = \alpha$ ，在实验当中作者设置

α=0.1 $\alpha = 0.1$

当学习过程完成之后，对于图片可以认为是通过上述学习获得一个 $M$ bits 的hashcode,对于hashcode 的每一维可以使用上述的一个公式,
$h_n(x_i) = e_n^Tx_i > T_n$
作者在训练(学习的过程当中)训练的数据对是150000图相对。

2.Restricted Boltzmann Machines

受限波尔兹曼机类似于后来的较浅层的神经网络
对于一个含有隐藏层的网络，可见层的一个单元 $v$ 和隐藏层 $h$ 通过权重 $W$ 相连。
有如下的能量公式：

其中 $v_i,h_j$ 分别是可见层和隐藏层的 $i,j$ 的二进制状态。
$w_{ij}$ 是权重， $b_i,b_j$ 是偏置项。
根据这个能量公式可以得到这个可见层 $v$ 向量出现的概率
出现概率
对于可见层和隐藏层的关系，可以看到有如下的条件概率分布
条件分布概率
其中 $\sigma(x) = \frac{1}{1+e^x}$
通过上述的条件概率分布可以选择出现最大的一个，所以上述公式当中的所有的参数 $w_{ij},b_i,b_j$ 可以使用gibbs采样作为转移，并通过隐马尔科夫过程获得收敛。
后面的实验当中作者使用了多个受限玻尔兹曼机来叠加在一起来获得多层的网络，每个隐藏层在输出之后作为下一个受限玻尔兹曼机可见层的输入数据。

3.实验

数据集：
LabelMe：22000张图片
Web image dataset：12.9 million图片
输入特征使用GIST特征。
3.1 hashcode的长度的影响

在固定最近邻点 $N=50$ 的情况下，检索M个点的返回结果当中是实际近邻点的个数。
其中距离的定义为直方图距离，直方图相交。
从上面的图中可以看出随着hashcode长度的增加，检索的特征的个数为M =500,看出来RBM的实验结果比其他几种方法要好。其实最后的检索的效果是趋于稳定的。RBM最好的性能是在hashcode为30的时候。
从检索特征的个数来看，RBM好于其他的几种方法。随着检索特征的增加，最后趋向于一个暴力搜索的过程。

3.2 Web image retrieval
12.9 million= 12900000 的web 图像
code length
从这个不同hashcode 长度的检索的实验结果来看，可以得出来，随着hashcode 长度的增加，检索的效果也是越来越好，但是也会出现检索时间的问题。下面给出，不同hashcode长度的检索结果。
检索量
可以看出来，RBM相比与LSH获得相同的近邻点，所需要检索更少的图像。

3.3检索速度比较
随着hashcode长度的增加所需要的检索时间也是增加的所以，所以作者给出了检索速度的实验结果：

LabelMe数据集：检索1000近邻点的时间kd-tree大约是3ms/image
会检索到17%的真实的近邻点。RBM需要6us/image 并且可以检索到48%的实际近邻点。kd-tree不能用于web image数据集，因为数据集太大。不能完全放在内存当中。

3.4hashcode关于识别的实验
在Web image数据集上实现分类任务。
分类的方法：找到最近邻的500张图片中类别数目最多的那一类作为查询图片的分类结果。作者给出了在这个数据集上person类别是实验结果：
person分类
可以看出来，RBM hashcode的长度越长所表现出来的结果越好，当然最好的结果是GIST特征的暴力搜索。
右边的图可以看出来，相对于GIST所有维度的特征，进行分类，作者给出不同hashcode长度的相对于full GIST分类的结果。随着hashcode长度的增加，分类的结果也是越来越好。

4.总结

对于搜索引擎，有的时候简单的算法可能会起到很好的效果。作者提出基于机器学习的方法，在特定的数据集上学习到hashcode，通过hashcode来进行检索或者分类任务。这样可以减少数据所占用的内存。从而达到比较好的效果。

LIUHUANUCAS

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Small Codes and Large Image Databases for Recognition

0.论文介绍：对GIST特征进行哈希，然后通过hashcode进行检索和分类。作者介绍了基于机器学习的几种方法：BoostSSC，和RBM,通过实验，可以看出来，做这提出来的方法在LabelMe和webImages两个数据集上相比于LSH获得了较好的结果。1.BoostSSC把原空间的数据，嵌入到hamming空间中，原始数据之间的距离使用带有权重的hamming距离来替代。图像可以使用MM维的
复制链接

扫一扫