Python----Bag Of Features图像检索

最新推荐文章于 2021-06-06 23:05:05 发布

CRUSH_BUDS

最新推荐文章于 2021-06-06 23:05:05 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/qq_39295665/article/details/90116235

版权

当我们对特定的一张图像进行图像特征匹配时，若采用暴力匹配法，则需要多久呢？
（1）250,000 张图像 --> ~ 310亿个图像对 --> 每个图相对2秒匹配–> 500台并行计算机需要1 年才能完成计算
（2） 1,000,000 张图像–> 5000亿个图像对 --> 500台并行计算机需要15 年才能完成计算
可以看出，采用暴力匹配法，其效率是及其之低的，复杂度过高。

下面介绍一种方法-------Bag of features
Bag of Feature 是一种图像特征提取方法，它借鉴了文本分类的思路（Bag of Words），从图像抽象出很多具有代表性的关键词，形成一个字典，再统计每张图片中出现的关键词数量，得到图片的特征向量。

在介绍Bag of features之前，我们先来了解一下Bag of words模型

Bag Of Words

一、介绍

Bag of Words 是文本分类中的一种策略，是信息检索领域常用的文档表示方法。如果我们要了解一段文本的主要内容，最有效的策略是获取文本中的关键词，根据关键词出现的频率确定这段文本的中心思想。
在信息检索中，BOW模型是假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现。
比如：如果一则新闻中经常出现iraq、terrorists，那么，我们可以认为这则新闻应该跟伊拉克的恐怖主义有关。如果一则新闻中出现较多的关键词是soviet、cuba，我们可以猜测这则新闻是关于冷战的
在这里插入图片描述

这里所说的关键词，就是Bag of words中的 words ，它们是在一片文档中出现频率较高的单词。根据这些 words ，我们可以很快地识别出文章的内容，并快速地对文章进行分类。
图像可以视为一种文档对象，图像中不同的特征可看做构成图像的词汇，其中相近的区域或其特征可以视作为一个词。这样，就能够把文本检索及分类的方法用到图像分类及检索中去。
由BOW对文档分类的思想我们可以引申出Bag of Features-----即对图像进行分类

Bag Of Features

概念

Bag-of-Features模型是仿照文本检索BOW的方法，把每幅图像描述为一个局部区域/关键点特征的无序集合。使用聚类算法(如K-means)将局部特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的 “word”，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看当为一种特征量化过程）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码本(code book)，即码字的集合（数据库）。
词典中所含词的个数反映了词典的大小。图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现，然后统计每个视觉词的出现与否或次数，图像可描述为一个维数相同的直方图向量，即Bag-of-Features。
在这里插入图片描述
基础流程
1、特征提取
2、学习“视觉词典”
3、针对输入特征集，根据视觉词典进行量化
4、把输入图像转化成视觉单词（visual words）的频率直方图
5、构造特征到图像的倒排表，通过倒排表快速索引相关图像
6、根据索引结果进行直方图匹配
在这里插入图片描述
（一）特征提取

特征必须具有较高的区分度，而且要满足旋转不变性以及尺寸不变性等，因此，我们通常都会采用SIFT特征提取。SIFT会从图片上提取出很多特征点，每个特征点都是 128 维的向量，因此，当图片足够多的话，会提取出一个巨大的特征向量库。
在这里插入图片描述
（二）学习“视觉词典（visual vocabulary）”

采用聚类方式，将所有特征向量归类

K-Means聚类算法
最小化每个特征 xi 与其相对应的聚类中心 mk 之间的欧式距离
在这里插入图片描述
算法流程
（1）随机初始化 K 个聚类中心
（2）重复下述步骤直至算法收敛:
对应每个特征，根据距离关系赋值给某个中心/类别
对每个类别，根据其对应的特征集重新计算聚类中心
（3）聚类是