【计算机视觉】基于BOW的图像检索

最新推荐文章于 2022-06-20 01:41:08 发布

okokcccc

最新推荐文章于 2022-06-20 01:41:08 发布

阅读量400

点赞数 2

分类专栏：实验计算机视觉文章标签： python 聚类机器学习 pycharm 深度学习

本文链接：https://blog.csdn.net/okokcccc/article/details/117598347

版权

一、图像检索

BOW（Bag Of Words）词袋模型起始可以被理解为一种直方图统计，被应用在文本分类中，将文档表示成特征矢量。它只统计频率信息，并没有序列信息。BOW是选择words字典，然后统计字典中每个单词出现的次数。
BOW的基本思想是假定对于一个文本，忽略其词序和语法，句法，仅仅将其看作是一些词汇的集合，而文本中的每个词汇都是独立的。简单说就是将每篇文档都看成一个袋子（因为里面装的都是词汇，所以称为词袋，Bag Of Words由此而来），然后看这个袋子里装的都是些什么词汇，将其分类。如果文档中猪、马、羊这样的词汇多一些，而大厦，公园，汽车这样的词汇少，我们就倾向于判断它是一篇描绘乡村的文档，而不是描述城镇的。

特征袋BOF是词袋BOW的一种改进，用于图像处理问题。只不过在图像中，我们抽出的不再是一个个word，而是图像的关键特征Feature，所以研究人员将它更名为Bag of Feature。
Bag Of Feature在检索中的算法流程和分类几乎完全一样，唯一的区别在于，对于原始的 BOF 特征，也就是直方图向量，我们引入TF-IDF 权值。

将BOW的思想引入到图像中来，words在图像中用一种特定的特征描述子来代替。按照Bag of Features算法的思想，我们要找到图像中的关键词，这些关键词必须具备较高的区分度,通常会采用「SIFT」特征。
有了特征之后，我们会将这些特征通过聚类算法得出很多聚类中心。这些聚类中心通常具有较高的代表性。典型的聚类算法有k-means算法。我们将这些聚类中心组合在一起，形成一部字典。

该特征提取原理可以参考之前写过的博文，指路：SIFT特征提取
在这里插入图片描述

第一步提取完图像特征点之后，我们进行“视觉词典”的学习（流程图如下所示）：
建立视觉单词的思想就是将描述算子空间量化成一些典型实例，并将图像中的每个描述算子指派到其中的某个实例中，这些典型实例可通过分析训练图像集确定。即从一个很大的训练集提取特征描述算子，利用一些聚类算法可以构建出视觉单词（聚类算法最常用的是K-means），视觉单词是在给定特征描述算子空间中一组向量集，采用K-means进行聚类得到的聚类质心；把输入图像，根据TF-IDF转化成视觉单词（ visual words）的频率直方图，用视觉单词直方图来表示图像。

K- Means是迭代动态聚类算法中的一种，其中K表示类别数，Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。

K-Means算法流程

对于算法步骤的理解

上一步训练得到的字典，是为了这一步对图像特征进行量化。对于一幅图像而言，我们可以提取出大量的SIFT特征点，但这些特征点仍然属于一种浅层（low level）的表达，缺乏代表性。因此，这一步的目标，是根据字典重新提取图像的高层特征。
具体做法是，对于图像中的每一个SIFT特征，都可以在字典中找到一个最相似的 visual word，这样，我们可以统计一个 k 维的直方图，代表该图像的SIFT特征在字典中的相似度频率。
例如：对于图中车的图片，我们匹配图片的SIFT向量与字典中的 visual word，统计出最相似的向量出现的次数，最后得到这幅图片的直方图向量。

TF-IDF即词频(Term Frequency，TF)与逆文档频率(Inverse Document Frequency，IDF)的乘积，将此值作为权值，降低一些重复特征所带来的影响。

比如在BOW中，一些常用词汇譬如the，it，do等等词汇，不能体现文本内容特征，但是出现频率却很高，利用tf-idf可以降低这种不必要词汇的影响。同理，在BOF图像搜索中，图像之间也会有这样的无意义的特征出现，所以需要降低这类特征的权值。
主要思想
如果某个单词在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
公式
TF：单词w在文档d的词频（其中分子表示某个特征在总的特征出现的次数，分母表示总特征的数量，所以tf表示某个特征出现的频率。）
IDF：分子表示全部的图像数量，分母表示某个特征在总的图像下出现的次数。再对其取对数，就是IDF。

倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。
如图查找多个词汇构成一个倒排表：
在这里插入图片描述

当我们得到每幅图片的直方图向量（反映了字典各词出现的频率）后，接下来就是传统的分类问题，训练分类器模型。对于需要预测的图片，先一样的提取sift特征，再根据字典量化直方图向量，用分类器模型对直方图进行分类，常用的方法有SVM。当然，也可以直接根据 KNN 算法对直方图向量做相似性判断。

猫（20张）
在这里插入图片描述
鸡（20张）

牛（15张）

狗（15张）

关注