BOW即Bag of words,在上篇文章(浅析Bag-of-words及Bag-of-features)中我们有解释它的原理及应用,这里就不讲了。
本篇文章主要讲的是基于BOW实现的图像检索。
目录
一、实验内容
如题,检索在视觉上具有相似性的图像,可以是颜色相似、纹理相似、图像中的物体或场景相似。本实验是实现图像检索。
二、实现步骤
实现主要分三个部分
1、创建词汇
2、创建图像索引
3、在数据库中搜索图像
(1)选用数据集
首先介绍下本实验采用的数据集,图片不多,只有184张
可以采用一些比较正规的识别数据集,可以使数据集大些
(2)具体实现
1、创建词汇
我们要为我们的数据集里的图片创建视觉单词词汇,首先载入图像列表,利用SIFT提取特征描述子,获取特征列表,创建Vocabulary对象生成并保存词汇。
# -*- coding: utf-8 -*
import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift
# 要记得将PCV放置在对应的路径下
# 获取图像列表
imlist = get_imlist('E:\\study_work\\python\\image\\') # 存放数据集的路径
nbr_images = len(imlist) # 获取数据集的长度
# nbr_images = 300 # 可以是自己选择用多少张图片作为训练数据集
# 获取特征列表
featlist = [imlist[i][:-3]+'sift'
for i in range(nbr_images)]
# 提取文件夹下图像的sift特征
for i in range(nbr_images):
sift.process_image(imlist[i], featlist[i])
# 生成词汇
voc = vocabulary.Vocabulary('imglltest')
voc.train(featlist, 300, 10)
# 保存词汇
with open('E:\\study_work\\python\\image\\vocabulary.pkl', 'wb') as f:
pickle.dump(voc, f)
print 'vocabulary is:', voc.name, voc.nbr_words
这里解释一下生成词汇部分
Vocabulary是调用PCV下imagesearch中的文件vocabulary.py,该文件代码的作用是创建一个词汇类,以及在训练图像数据集上训练出一个词汇。其中包含了一个有单词聚类中心与每个单词对应的逆向文档频率构成的向量。该词汇类中还包含了train()函数。
train()