python计算机视觉--基于(BOW)的图像检索与识别

本文介绍了基于Bag-of-Words(BOW)模型的图像检索与识别技术,涵盖图像分类的基本原理,如图像分类、BoW模型、BoF模型和算法流程。文章详细阐述了特征提取、视觉词典学习、直方图表示、量化、TF-IDF权重以及代码实现中的数据集创建、数据库构建和图像搜索。在实践中,作者遇到了模块导入、排序和类型错误等问题,并给出了相应的解决方案。
摘要由CSDN通过智能技术生成

目录

前言

一、基本原理

1.1 图像分类简介

1.2 Bag-of-words模型

1.3 Bag-of-features模型

1.4  Bag-of-features算法

1.5  Bag-of-features过程

1.6 TF-IDF

二、代码实现

2.1 数据集

2.2 创建词汇

2.3 建立数据库

2.4 在数据库中搜素图像

2.5 遇到的问题

参考文章


前言

本次实验将参照Bag-of-words模型实现简单的图像检索操作。

环境:Pycharm,python3.8.5


一、基本原理

1.1 图像分类简介

图像分类,即通过图像内容的不同将图像划分为不同的类别,基于内容的图像分类技术不需要对图像的语义信息进行人工标注,而是通过计算机提取图像中所包含的特征,并对特征进行处理和分析,得出分类结果。
 
常用的图像特征有 色彩纹理灰度等信息。而图像分类过程中,提取的特征要求不容易受随机因素干扰,特征的有效提取可提高图像分类的精度。特征提取完成后,选择合适的算法创建图像类型与视觉特征之间的关联度,对图像进行类别划分。
 
图像分类领域中,根据图像分类要求,一般可以分为 场景分类目标分类两类问题。
场景分类指的是从多幅图像中区分出具有相似场景特征的图像。
目标分类指的是对图像中 出现的目标 (物体)进行识别或分类。

1.2 Bag-of-words模型

Bow起始可以理解为一种直方图统计,开始是用于自然语言处理和信息检索中的一种简单的文档表示方法。BoW也只是统计频率信息,并没有序列信息。Bow是选择words字典,然后统计字典中每个单词出现的次数。

BoW(Bag of Words)词袋模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。简单说就是将每篇文档都看成一个袋子(因为里面装的都是词汇,所以称为词袋,Bag of words即因此而来),然后看这个袋子里装的都是些什么词汇,将其分类。如果一篇文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的。

1.3 Bag-of-features模型

Bag of Feature 也是借鉴了这种思路,只不过在图像中,我们抽出的不再是一个个word,而是图像的关键特征Feature,所以研究人员将它更名为Bag of Feature。
Bag of Feature在检索中的算法流程和分类几乎完全一样,唯一的区别在于,对于原始的 BOF 特征,也就是直方图向量,我们引入TF-IDF 权值。

1.4  Bag-of-features算法

Bag of Feature的本质是提出一种图像的特征表示方法

按照Bag of Feature算法的思想,首先我们要找到图像中的关键特征,而且这些关键特征必须具备较高的区分度。实际过程中,通常会采用SIFT特征

有了特征之后,我们会将这些特征通过聚类算法得出很多聚类中心。这些聚类中心通常具有较高的代表性,比如,对于人脸来说,虽然不同人的眼睛、鼻子等特征都不尽相同,但它们往往具有共性,而这些聚类中心就代表了这类共性。我们将这些聚类中心组合在一起,形成一部视觉词典(visual vocabulary)。

对于图像中的每个SIFT特征,我们能够在字典中找到最相似的聚类中心,统计这些聚类中心出现的次数,可以得到一个向量表示(有些文章称之为直方图)这些向量就是所谓的Bag。这样,对于不同类别的图片,这个向量应该具有较大的区分度,基于此,我们可以训练出一些分类模型(SVM等),并用其对图片进行分类。

1.5  Bag-of-features过程

算法流程:

  1. 提取图像特征
  2. 对特征进行聚类,得到一部视觉字典( visual vocabulary )
  3. 针对输入特征集,根据视觉词典进行量化
  4. 把输入图像根据TF-IDF转化成视觉单词的频率直方图
  5. 构造特征到图像的倒排表,通过倒排表快速索引相关图像
  6. 根据索引结果进行直方图匹配

(1)提取图像特征

特征提取及描述主要是将一些 具有代表性区分性较强全局或局部特征从图像中进行抽取,并对这些特征进行描述。
这些特征一般是类别之间差距比较明显的特征,可以将其与其他类别区分开,其次,这些特征还要求具有 较好的稳定性,能够最大限度的在光照视角尺度噪声以及各种外在因素变化的情况下保持稳定,不受其影响。这样即使在非常复杂的情况下,计算机也能通过这些稳定的特征很好的检测与识别出这个物体。

特征提取最简单且有效的方法就是 规则网格方法
该方法采用均匀网格对图像进行划分,从而得到图像的局部区域特征。

兴趣点检测方法是另一个有效的特征提取方法,兴趣点检测的基本思想是:
在人为判断一幅图像的类别时,首先捕捉到物体的整体轮廓特征,然后聚焦于物体与其他物体具有显著特征区别的地方,最后判断出图像的类别。即通过该物体与其他物体 区别开的 显著特征,进而判断图像的类别。

在提取完图像的特征后,下一步就要应用特征描述子来对抽取的图像特征进行描述,特征描述子所表示的特征向量一般在处理算法时会作为输入数据,因此,如果描述子具有一定的判别性及可区分性,则该描述子会在后期的图像处理过程中起着很大的作用。

SIFT描述子是近年比较经典且被广泛应用的一种描述子。
SIFT会从图片上提取出很多特征点,每个特征点都是128维的向量,因此,如果图片足够多的话,我们会提取出一个巨大的特征向量库。

(2) 学习视觉词典(visual vocabulary)

提取完特征后,我们会采用一些聚类算法对这些特征向量进行聚类。

最常用的聚类算法是 :k-means

K-means算法是度量样本间相似性的一种方法,该算法设置参数为K,把N个对象分成K个簇,簇内之间的相似度较高,而簇间的相似度较低。

至于 K-means 中的 K如何取,要根据具体情况来确定。另外,由于特征的数量可能非常庞大,这个聚类的过程也会非常漫长。聚类完成后得到K个聚类中心,每个聚类中心称为“视觉单词”,而将所有视觉单词组成的集合称为视觉词典/码本(codebook)。构建视觉单词的过程如图所示:

关于码本的大小:

(1)如果码本规模太小,我们的视觉词典不能包括所有可能的情况;

(2)如果码本过大,会使得计算量增加,且有过拟合现象出现。

 (3)图片直方图表示

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>