基于BOW的图像检索

最新推荐文章于 2022-06-20 15:47:00 发布

╰★搁浅记忆的忧慯★╮

最新推荐文章于 2022-06-20 15:47:00 发布

阅读量520

点赞数

本文链接：https://blog.csdn.net/qq_41634240/article/details/106229081

版权

2.学习“视觉词典”（visual vocabulary）

3.针对输入特征集，根据视觉词典进行量化

4.把输入图像，根据TF-IDF转化成视觉单词（ visual words）的频率直方图

5.构造特征到图像的倒排表，通过倒排表快速索引相关图像

（2）将上面得到的数据模型存放数据库testImaAdd.db中，即运行下面代码会生成一个testImaAdd.db数据库文件

（3）测试

五、运行问题

一、简介

Bag-of-Words模型源于文本分类技术。在信息检索中，它假定对于一个文本，忽略其词序、语法和句法，将其仅仅看作是一个词集合，或者说是词的一个组合。文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说这篇文章的作者在任意一个位置选择词汇都不受前面句子的影响而独立选择的。
使用某种聚类算法(如K-means)将特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看当为一种特征量化过程）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码书(code book)，即码字的集合，词典中所含词的个数反映了词典的大小。图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现。然后，统计每个视觉词的出现与否或次数，图像可描述为一个维数相同的直方图向量，即Bag-of-Features。在Bag-of-Features方法的基础上，Andrew Zisserman进一步借鉴文本检索中TF-IDF模型(Term Frequency一Inverse Document Frequency)来计算Bag-of-Features特征向量。接下来便可以使用文本搜索引擎中的反向索引技术对图像建立索引，高效的进行图像检索。
Bag-of-Features更多地是用于图像分类或对象识别，鉴于SIFT的优异性能，本文提取的是SIFT特征。

二、BOW实现图像检索的一般流程

特征提取
学习 “视觉词典（visual vocabulary）”
针对输入特征集，根据视觉词典进行量化
把输入图像，根据TF-IDF转化成视觉单词（visual words）的频率直方
构造特征到图像的倒排表，通过倒排表快速索引相关图像
根据索引结果进行直方图

三、概念：

1.特征提取

之前的课程之中学习了关于特征提取的几个方式，例如sift，Harris脚点。这里我们通过sift来提取图像的特征点。类似BOW，我们将图像看成一个由各种图像块组成的集合，通过特征提取，获得图像的关键图像特征。如图

2.学习“视觉词典”（visual vocabulary）

通过步骤1，我们获得了多张图像的特征点。这些特征提取出来，并没有通过分类处理，其中有的特征点之间是极其相似，所以这一步骤通过K-means聚类算法，将我们提取出来的特征点进行分类处理。
算法的简单流程：

（1）随机初始化 K 个聚类中心
（2）重复下述步骤直至算法收敛:
对应每个特征，根据距离关系赋值给某个中心/类别
对每个类别，根据其对应的特征集重新计算聚类中心
聚类是学习视觉词典的重点操作。将聚类出来的聚类中心称为视觉单词（codevector）。而将视觉单词组成的集合称为视觉词典/码本（codebook）。
这里我们需要注意一个问题，关于码本的大小。

（1）如果我们做出来的码本规模太小，就会出现，我们的视觉单词不能包括所有可能的情况。
（2）相反的，如果我们做出来的码本规模过大，会使得计算量增加，且有过拟合现象出现。
例如，这张图像表示通过特征提取出来的特征集合，涵盖了所有的特征。

通过学习之后，就剩下了几个特征作为视觉单词

3.针对输入特征集，根据视觉词典进行量化

这一步骤将我们输入的特征集合，映射到上一步做来的码本之中。通过计算输入特征到视觉单词的距离，然后将其映射到距离最近的视觉单词中，并计数。

4.把输入图像，根据TF-IDF转化成视觉单词（ visual words）的频率直方图

这一步骤通过对图像特征提取，然后将提取出来的特征点，根据第三步，转换为频率直方图。如图所示

这里在转换为频率直方图时候，有使用到TF-IDF，即词频(Term Frequency，TF)与逆文档频率(Inverse Document Frequency，IDF)乘积作为权值。引入这个权值的目的是为了降低一些重复特征所带来的影响。比如在BOW中，一些常用词汇譬如the，it，do等等词汇，不能体现文本内容特征，但是出现频率却很高，利用tf-idf可以降低这种不必要词汇的影响。同理，在BOF图像搜索中，图像之间也会有这样的无意义的特征出现，所以需要降低这类特征的权值。

其中分子表示某个特征在总的特征出现的次数，分母表示总特征的数量，所以tf表示某个特征出现的频率。

其中的分子表示全部的图像数量，分母表示某个特征在总的图像下出现的次数。再对其取对数，就是IDF。

5.构造特征到图像的倒排表，通过倒排表快速索引相关图像

倒排表是一种逆向的查找方式，在BOW中大体的思路是通过已经提取出来的词汇，反向查找出现过这个词汇的文章。如图，查找多个词汇，就形成了一个倒排表。

BOF中倒排表也是同理。通过对视觉词汇的反向查找，就会得到拥有同一视觉词汇的图像集合，反复多次就能得到一张倒排表。倒排表可以快速的得到新的图像与数据库里相似的图像。

6.根据索引结果进行直方图匹配

当我们做完上面的步骤，就需要对直方图进行匹配。直方图的匹配给出输入图像的频率直方图，在数据库中查找K个最近邻的图像，根据这K个近邻来投票图像的分类结果。

三、数据集

四、实验代码

（1）SIFT特征提取

# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift

#获取图像列表
imlist = get_imlist('D:/JMU/computer_vision/SIFTcode/BOW/')
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

#提取文件夹下图像的sift特征
for i in range(nbr_images):
    sift.process_image(imlist[i], featlist[i])

#生成词汇
voc = vocabulary.Vocabulary('ukbenchtest')
voc.train(featlist, 1000, 10)
#保存词汇
# saving vocabulary
with open('D:/JMU/computer_vision/SIFTcode/BOW/vocabulary.pkl', 'wb') as f:
    pickle.dump(voc, f)
print ('vocabulary is:', voc.name, voc.nbr_words)

实现对每一幅图像都进行SIFT特征的提取，而且每一个SIFT特征用一个128维的描述子矢量表示，即有M幅图像共提取出N个SIFT特征。结果如下图所示(以.sift结尾的即为sift特征提取的结果)：

每幅图像的描述子保存在vocabulary.pkl文件中，运行结果如下图所示：

（2）将上面得到的数据模型存放数据库testImaAdd.db中，即运行下面代码会生成一个testImaAdd.db数据库文件

# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import imagesearch
from PCV.localdescriptors import sift
import sqlite3
from PCV.tools.imtools import get_imlist
 
#获取图像列表
#imlist = get_imlist('E:/Python37_course/test7/first1000/')
imlist = get_imlist('D:/JMU/computer_vision/SIFTcode/BOW/')
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]
 
# load vocabulary
#载入词汇
'''with open('D:/JMU/computer_vision/SIFTcode/BOW/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)'''
with open('D:/JMU/computer_vision/SIFTcode/BOW/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)
#创建索引
indx = imagesearch.Indexer('testImaAdd.db',voc)
indx.create_tables()
# go through all images, project features on vocabulary and insert
#遍历所有的图像，并将它们的特征投影到词汇上
 
#for i in range(nbr_images)[:1000]:
for i in range(nbr_images)[:26]:
    locs,descr = sift.read_features_from_file(featlist[i])
    indx.add_to_index(imlist[i],descr)
# commit to database
#提交到数据库
indx.db_commit()
 
con = sqlite3.connect('testImaAdd.db')
print (con.execute('select count (filename) from imlist').fetchone())
print (con.execute('select * from imlist').fetchone())

生成了testImaAdd.db数据库

（3）测试

 
# -*- coding: utf-8 -*-
import pickle
import sift
from PCV.imagesearch import imagesearch
from PCV.geometry import homography
from PCV.tools.imtools import get_imlist
 
# load image list and vocabulary
#载入图像列表
#imlist = get_imlist('E:/Python37_course/test7/first1000/')
imlist = get_imlist('E:/Python37_course/test7/images/')
nbr_images = len(imlist)
#载入特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]
 
#载入词汇
'''with open('E:/Python37_course/test7/first1000/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)'''
with open('E:/Python37_course/test7/images/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)
 
src = imagesearch.Searcher('testImaAdd.db',voc)
 
# index of query image and number of results to return
#查询图像索引和查询返回的图像数
q_ind = 0
nbr_results = 20
 
# regular query
# 常规查询(按欧式距离对结果排序)
res_reg = [w[1] for w in src.query(imlist[q_ind])[:nbr_results]]
print ('top matches (regular):', res_reg)
 
# load image features for query image
#载入查询图像特征
q_locs,q_descr = sift.read_features_from_file(featlist[q_ind])
fp = homography.make_homog(q_locs[:,:2].T)
 
# RANSAC model for homography fitting
#用单应性进行拟合建立RANSAC模型
model = homography.RansacModel()
rank = {}
 
# load image features for result
#载入候选图像的特征
for ndx in res_reg[1:]:
    locs,descr = sift.read_features_from_file(featlist[ndx])  # because 'ndx' is a rowid of the DB that starts at 1
    # get matches
    matches = sift.match(q_descr,descr)
    ind = matches.nonzero()[0]
    ind2 = matches[ind]
    tp = homography.make_homog(locs[:,:2].T)
    # compute homography, count inliers. if not enough matches return empty list
    try:
        H,inliers = homography.H_from_ransac(fp[:,ind],tp[:,ind2],model,match_theshold=4)
    except:
        inliers = []
    # store inlier count
    rank[ndx] = len(inliers)
 
# sort dictionary to get the most inliers first
sorted_rank = sorted(rank.items(), key=lambda t: t[1], reverse=True)
res_geom = [res_reg[0]]+[s[0] for s in sorted_rank]
print ('top matches (homography):', res_geom)
 
# 显示查询结果
imagesearch.plot_results(src,res_reg[:8]) #常规查询
imagesearch.plot_results(src,res_geom[:8]) #重排后的结果

运行结果如下：

以上为常规和重排后所显示的结果，由于测试图集的照片是重排过的，所以运行照片结果一样。由上面的结果可以知道，在做图像索引时，使用k-means聚类，除了其K和初始聚类中心选择的问题外，对于大量数据，输入矩阵的巨大将使得内存溢出及效率低下。图像索引时，字典大小的选择也是非常的重要，若字典过大，单词缺乏一般性，对噪声敏感，计算量大，关键是图象投影后的维数高；若字典过小，单词区分性能差，对相似的目标特征无法表示。