计算机视觉：图像检索

最新推荐文章于 2024-08-01 14:23:27 发布

HEY万万想到了

最新推荐文章于 2024-08-01 14:23:27 发布

阅读量4k

点赞数 3

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/weixin_40359677/article/details/90139448

版权

本文介绍了图像检索的基本概念，包括基于文本和内容的图像检索技术。重点讲述了基于BOW的图像检索原理，包括BoW词袋模型、BOF模型和K-means聚类算法。BOW模型通过特征提取、聚类和直方图统计简化了图像表示，提高检索效率。K-means算法用于构建视觉词汇表，将SIFT特征映射到视觉词，形成图像的BoF表示。文章还简要提及了代码实现和测试过程中的挑战与改进方向。

摘要由CSDN通过智能技术生成

一、图像检索原理概述

图像检索，简单的说，便是从图片检索数据库中检索出满足条件的图片，图像检索技术的研究根据描述图像内容方式的不同可以分为两类：

一类是基于文本的图像检索技术，简称TBIR，

一类为基于内容的图像检索技术，简称CBIR。

两类图像检索技术

基于文本的图像检索(TBIR)技术，其主要原理为利用文本描述，如文本描述图片的内容、作者等等的方式来检索图片；

基于图像的内容语义的图像检索技术（CBIR），利用图片的颜色、纹理及图片包含的物体、类别等信息检索图片，如给定检索目标图片，在图像检索数据库中检索出与它相似的图片。

基于图像的内容语义的图像检索包括相同物体图像检索和相同类别图像检索，检索任务分别为检索同一个物体地不同图片和检索同一个类别地图片。例如，行人检索中检索的是同一个人即同一个身份在不同场景不同摄像头下拍得的图片属于相同物体的图像检索，而在3D形状检索中则是检索属于同一类的物品，如飞机等。

图像检索技术的步骤

图像检索技术主要包含几个步骤，分别为：输入图片、特征提取、度量学习、重排序。

特征提取：即将图片数据进行降维，提取数据的判别性信息，一般将一张图片降维为一个向量；

度量学习：一般利用度量函数，计算图片特征之间的距离，作为loss，训练特征提取网络，使得相似图片提取的特征相似，不同类的图片提取的特征差异性较大。

重排序：利用数据间的流形关系，对度量结果进行重新排序，从而得到更好的检索结果。
在这里插入图片描述

二、基于BOW的图像检索原理

2.1 BoW词袋模型原理：

2.1.1模型简介

Bag-of-Words模型源于文本分类技术。在信息检索中，它假定对于一个文本，忽略其词序、语法和句法，将其仅仅看作是一个词集合，或者说是词的一个组合。文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说这篇文章的作者在任意一个位置选择词汇都不受前面句子的影响而独立选择的。
Bag-of-words在CV中的应用首先出现在Andrew Zisserman中为解决对视频场景的搜索，其提出了使用Bag-of-words关键点投影的方法来表示图像信息。后续更多的研究者归结此方法为Bag-of-Features，并用于图像分类、目标识别和图像检索。Bag-of-Features模型仿照文本检索领域的Bag-of-Words方法，把每幅图像描述为一个局部区域或关键点(Patches/Key Points)特征的无序集合，这些特征点可以看成一个词。这样，就能够把文本检索及分类的方法用到图像分类及检索中去。
使用某种聚类算法(如K-means)将特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看当为一种特征量化过程）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码书(code book)，即码字的集合，词典中所含词的个数反映了词典的大小。图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现。然后，统计每个视觉词的出现与否或次数，图像可描述为一个维数相同的直方图向量，即Bag-of-Features。在Bag-of-Features方法的基础上，Andrew Zisserman进一步借鉴文本检索中TF-IDF模型(Term Frequency一Inverse Document Frequency)来计算Bag-of-Features特征向量。接下来便可以使用文本搜索引擎中的反向索引技术对图像建立索引，高效的进行图像检索。
Bag-of-Features更多地是用于图像分类或对象识别。在上述思路下对训练集提取Bag-of-Features特征，在某种监督学习（如:SVM）的策略下，对训练集的Bag-of-Features特征向量进行训练，获得对象或场景的分类模型；对于待测图像，提取局部特征，计算局部特征与词典中每个码字的特征距离，选取最近距离的码字代表该特征，建立一个统计直方图，统计属于每个码字的特征个数，即为待测图像的Bag-of-Features特征；在分类模型下，对该特征进行预测，从而实现对待测图像的分类。

2.1.2为什么要用BoW模型描述图像
SIFT特征虽然也能描述一幅图像，但是每个SIFT矢量都是128维的，而且一幅图像通常都包含成百上千个SIFT矢量，在进行相似度计算时，这个计算量是非常大的，通行的做法是用聚类算法对这些矢量数据进行聚类，然后用聚类中的一个簇代表BoW中的一个视觉词，将同一幅图像的SIFT矢量映射到视觉词序列生成码本，这样每一幅图像只用一个码本矢量来描述，这样计算相似度时效率就大大提高了。

2.1.3.构建BoW码本步骤
假设训练集有M幅图像，对训练图象集进行预处理。包括图像增强，分割，图像统一格式，统一规格等等。
提取SIFT特征。对每一幅图像提取SIFT特征（每一幅图像提取多少个SIFT特征不定）。每一个SIFT特征用一个128维的描述子矢量表示，假设M幅图像共提取出N个SIFT特征。

用K-means对2中提取的N个SIFT特征进行聚类，K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。聚类中心有k个（在BOW模型中聚类中心我们称它们为视觉词），码本的长度也就为k，计算每一幅图像的每一个SIFT特征到这k个视觉词的距离，并将其映射到距离最近的视觉词中（即将该视觉词的对应词频+1）。完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量。
构造码本。码本矢量归一化因为每一幅图像的SIFT特征个数不定，所以需要归一化。测试图像也需经过预处理，提取SIFT特征，将这些特征映射到为码本矢量，码本矢量归一化，最后计算其与训练码本的距离，对应最近距离的训练图像认为与测试图像匹配。设视觉词序列为{眼睛鼻子嘴}（k=3），则训练集中的图像变为：
第一幅图像：[1 0 0]
第二幅图像：[5 3 4]
…
当然，在提取sift特征的时候，可以将图像打成很多小的patch，然后对每个patch提取SIFT特征。

总结一下，整个过程其实就做了三件事，首先提取对n幅图像分别提取SIFT特征ÿ