On the burstiness of visual elements

最新推荐文章于 2024-02-21 15:08:11 发布

LIUHUANUCAS

最新推荐文章于 2024-02-21 15:08:11 发布

阅读量1.2k

点赞数

分类专栏： algorithm 论文图像检索

本文链接：https://blog.csdn.net/liu2012huan/article/details/53301945

版权

algorithm 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

论文

6 篇文章 0 订阅

订阅专栏

图像检索

2 篇文章 0 订阅

订阅专栏

本文探讨了图像检索中的突发性问题，尤其是在BoW模型中导致匹配质量下降的因素。作者介绍了图像检索框架，包括局部特征计算、Hamming Embedding、加权海明距离等方法，并提出了解决突发问题的策略，包括限制特征匹配次数、使用idf扩展等。实验部分展示了这些方法在多个数据集上的有效性，证明了所提出方法的优越性和可扩展性。

摘要由CSDN通过智能技术生成

1.论文介绍

这篇文章主要解决了，图像检索过程当中的突发(Burstiness)问题。在BoW模型当中，一个视觉元素在同一个图片中多次出现可能会降低匹配的质量。

2.图像检索的框架

局部特征和特征与视觉中心的对应
作者通过使用Hessian-afine 检测子来计算SIFT特征。作者在数据集Flickr上通过k-means方法学习到20k大小的视觉词典。对于新的特征，使用欧氏距离来获得这个特征属于的视觉中心。这样就会把一个特征空间分割成多个视觉中心。用 $q(x)$ 表示特征向量 $x$ 的视觉中心的索引。

Hamming Embedding
Hamming Embedding 提供了特征的二进制表示，并通过计算特征之间的海明距离来过滤同一个视觉中心当中距离比较远的图片。Hamming Embedding的匹配的过程如下：
对于一个特征描述子的表示 $s(x)$ ，以及特征的直觉中心表示 $q(x)$

v o t e (x, y) = {v o t e d i f q (x) = = q (y) a n d h (s (x), s (y)) < h t, h t = 24 u n v o t e d o t h e r w i s e

$vote(x,y)= \begin{cases} &voted \ if \ q(x)== q(y)\ and\ h(s(x),s(y)) \lt h_t ,h_t=24 \\ &unvoted\ otherwise \end{cases}$
上面的公式表明对于待查询的特征，对于和这个特征是同一个视觉中心的特征，他们之间的海明距离小于

ht=24 $h_t = 24$ 那么这个特征就会给他所在的图片投票。

加权Hamming Embedding
上述的Hamming Embedding匹配的结果当中只会有投票和不投票两种情况，但是考虑到如果相似的特征，海明距离应该会近，因此，海明距离表明特征的相似度。所以我们可以把计算的海明距离考虑进去。所以可以使用如下的关于海明距离的权重来衡量两个特征之间的相似度。

w (h d) = e x p (- h 2 d σ)

$w(h_d) = exp(\frac{-h_d^2}{\sigma})$
可以看出来距离越近相似度越高，可以认为是tf的一个扩展。
下面就是结合idf来获得一个特征和另一个特征之间的得分。进而来给特定的图片投票。

s c o r e (x, y) = ⎧ ⎩ ⎨ ⎪ ⎪ w (h (s (x), h (s (y))) i f q (x) = = q (y) \times i d f (q (x)) 2 a n d h (s (x), s (y)) \leq h t 0 o t h e r w i s e

$score(x,y) = \begin{cases} &w(h(s(x),h(s(y))) \quad if q(x) == q(y) \\ & \qquad \times idf(q(x))^2 \ \quad and \ h(s(x),s(y)) \le h_t \\ & \qquad 0 \qquad \qquad \qquad otherwise \end{cases}$

弱几何校验
弱几何校验是简单的检测旋转和尺度变换。对于匹配上的特征点，会进行这一点的检测，并判断是否有旋转和尺度变换，舍弃不满足旋转和尺度变换关系的匹配点。
得分的归一化
对于上述特征点的得分(score(x,y))，会把整张图片的得分进行归一化，会除以视觉单词的出现的次数直方图的 $L2$ 模长。

特征的多个视觉中心
在查询的过程当中，对于传统的方法，只是把一个特征归属到一个视觉中心当中。也有把一个特征归属到k近邻个视觉中心的情况。这里作者使用上文叙述得到的加权的海明距离作为查找近邻的权重，把一个查询的特征归属到多个视觉中心，然后加以权重。这个阶段只会在查询的过程当中进行。并不会再构建倒排索引的过程当中进行。

同时作者会对于查询特征和视觉中心的距离进行限制，避免把特征归属到不相关的视觉中心当中。这个限制是使用一个距离 $d$ 和一个控制因子 $\alpha$ 。
对于最近的一个视觉中心 $d_0$ ，这个特征和其他视觉中心的距离 $d \lt \alpha d_0$ 的时候才把这个特征也归属到这个视觉中心当中。
作者在试验中设置 $\alpha=1.2$ ，在实验的过程当中，对于视觉中心的大小位20k时，可以得到平均每个特征会归属到4.3个视觉中心。

空间校验
空间校验是，通过一个二维的仿射变换矩阵来验证两个匹配的点集合之间的正确性。由于这个过程当中需要找到这个二维矩阵，复杂度很高，作者只在前200个返回结果当中，进行使用。

3.突发情况的解决

作者根据上述出现的突发情况的问题，给出三种解决方案。
第一种是除去多个匹配，第二种和第三种，是减少图片内和图片间的突发情况。

除去多个匹配
在BoF过程当中，一个特征描述符可能给同一个图片多次投票，所以这就使得投票不具有太高的质量。
为了防止这种多次匹配的点。可以限制每个特征点给图片投票的次数，每个特征点只给一张特定图片投票一次。也就是说，每个描述子不能给数据库中同一张图片多次投票，这样就可以限制多次投票。
在实际的过程当中，对于一个查询特征，找到海明距离最近的特征，然后丢弃其他所有的候选特征。也就是其他候选特征近不会进行投票了。

图片内的突发
作者统计
对于查询图片的特征， $x_i$ 表示查询图片 $x$ 的第 $i$ 个描述子。
$y_{b,j}$ 表示数据库当中图片 $b$ 的第 $j$ 个描述子。
使用 $m(i,b,j)$ 表示第i个特征和图片b的第j个特征的得分，如果 $q(x) != q(b)$ 那么 $m(i,b,j)=0$ ,如果 $q(x) == q(b)$ 但是两者之间的海明距离大于阈值，那么 $m(i,b,j)=0$ ，对于 $m(i,b,j) \ne 0$ 的情况。我们统计这个查询描述子的得分。

t q (i, b) = \sum j / q (y b, j) = q (x i) m (i, b, j)

$t_q(i,b) = \sum_{ j/q(y_{b,j}) = q(x_i) } ^ {}m(i,b,j)$
通过变换可以得到一个匹配的最后得分：

m (i, b, j) : = m (i, b, j) m ( i , b , j ) t q ( i , b ) - - - - - - - - \sqrt

$m(i,b,j) := m(i,b,j)\sqrt \frac{m(i,b,j)}{t_q(i,b)}$
作者在试验的过程当中使用到了其他的变换，以此来提高得分的可靠性。

图片间的突发
对于图片之间的突发情况，可以通过使用idf来解决。idf可以减少一个特征多次出现的权重。但是这个方法并没有考虑到匹配质量和特征空间中特征的近邻关系。所以他不能应用到海明距离上面。下面做这提出来了，关于idf的扩展的一种方法：
对于一个查询特征，定义这个特征在数据库中查询得分：

t b (i) = \sum b \sum j m (i, b, j)

$t_b(i) = \sum_{b}\sum_jm(i,b,j)$

tb(i) $t_b(i)$ :表示这个特征和所有库里面的特征匹配的的得分。
符号定义见上面的公式。
更新得分：

m (i, b, j) : = m (i, b, j) m ( i , b , j ) t ( i ) - - - - - - - - \sqrt

$m(i,b,j) := m(i,b,j)\sqrt \frac{m(i,b,j)}{t(i)}$
这个公式对于一个特征给多个图片进行投票，进行了惩罚。看成是idf的扩展。

4.实验

4.1数据集**

4.1.1. Kentucky object recognition benchmark

这个数据集包含2550个目标。每个目标会有四个不同角度的图片表示。

4.1.2. Oxford building dataset

这个数据集从Flickr上下载，每张查询图片是一个矩形区域的建筑物。正确的结果就是包含这个建筑物的其他图片。
这个数据集进行了裁剪，变换，这个数据集只包含55个查询图片。

4.1.3.Holidays dataset

1491张风景图片，分为500个类别，每个类中的第一张图片作为查询图片。类内图片为查询相似图片。

4.1.4.大规模检索数据集

作者融合了Flickr1M的图片，作为影响集合，来测试算法的可扩展性。

4.1.5.评估方法

所有的数据集都会使用mAP的方法进行测试。
Kentucky数据集作者会使用返回结果的前四张图片的正例的平均数。

4.2.参数的影响

4.2.1Hamming Embedding 权重影响

对于Hamming Embedding 权重对于mAP的影响。
作者在实验中设置 $\sigma = 10.. 20$ ，关于mAP的变化如下图：
sigma影响
可以看出来，在 $\sigma=16$ 的时候效果比较好。
同时作者在海明距离的阈值上面进行了实验。结果如下图：

对于传统的单一归属视觉中心，可以得到threshold=24比较好，但是对于一个特征可以归属多个视觉中心的方法,threshold=22比较好。从实验结果可以看出来，提高阈值大小获得的mAP值会急剧下降，这是因为大的阈值无法过滤一些噪声点。作者在后面的实验中选择threshold=24，可以过滤到93%的不匹配的点。

4.2.2 突发函数的影响

作者在后面的两种方法中提出了对的分进行更行的函数，这里作者给出了几种其他的更新函数。实验结果如下：
突发函数
其中 $N(i,b)$ :表示视觉中心 $q(x_i)$ 在图片b中出现的次数。
可以看主来函数#3,#4,#5得到近似的结果。

4.3.和传统的方法比较

4.3.1BoF 方法的Baseline

如下图所示：
baseline

4.3.2海明权重和特征多归属(MA)

海明权重和特征多归属在holidays和Oxford数据集上的在mAP上有0.06的提高。
上述的两个数据集上mAP可以达到0.606比之前的只是用Hemming Embedding，MA不加权的0.493

4.3.2突发情况的结果

Kentucky数据集：得到 $N_s= 3.54$ 比另一篇文章使用contextual dissimilarity measure要低，但是，这种方法在大的数据集上只能使用非迭代的方式。而作者的方法在大的数据集上具有更好的扩展性结果是 $N_s=3.40$
Oxford数据集：得到的mAP=0.647比其他报告的最好结果0.493要好。
Holidays数据集:得到的mAP=0.839比其他报告的最好结果0.751要好。

大规模的数据
作者添加Flickr1M的数据集在上述三个数据集，进行实验。具体结果如下图：

distractors
可以看出来，作者提出的方法，随着数据集的增加，得到的结果下降的速度小于其他的方法。从而说明了作者提出方法的可扩展性。

LIUHUANUCAS

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
On the burstiness of visual elements

1.论文介绍这篇文章主要解决了，图像检索过程当中的突发(Burstiness)问题。在BoW模型当中，一个视觉元素在同一个图片中多次出现可能会降低匹配的质量。2.图像检索的框架局部特征和特征与视觉中心的对应作者通过使用Hessian-afine 检测子来计算SIFT特征。作者在数据集Flickr上通过k-means方法学习到20k大小的视觉词典。对于新的特征，使用欧氏距离来获得这个特征属于的视觉
复制链接

扫一扫

专栏目录