【Compute Vision】,【CBIR】Bag-of-words model in computer vision

最新推荐文章于 2021-07-06 12:57:39 发布

erlingmusan

最新推荐文章于 2021-07-06 12:57:39 发布

阅读量1.6k

点赞数

分类专栏：【Compute Vision】【CBIR】

【CBIR】同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

【Compute Vision】

7 篇文章 0 订阅

订阅专栏

Bag-of-words model in computer vision

转载之：

http://www.cnblogs.com/yxy8023ustc/

楼下的塘北｜Bag of Features 之于图像检索

bow(bag of word)是一个稀疏的向量，向量的每个元素记录词的出现次数，相当于对每篇文章都关于词典做词的直方图统计。同样的道理用在computer vision领域，图像由一些基础的特征构成，每幅图像就是对这些特征的一个统计分布，在做图像分类时会假设相似图像他们的特征统计分布也符合一定的模型。于是从这句话里就可以把以bow模型的图像分类问题分解成以下几步：

1.1 特征检测； 1.2 特征描述；1.3 码本生成（bow向量）

2.1 生成模型（Generative model）2.2 判别模型（Discriminate model）

1. 基于BoW模型的图像表达

在这里可以给bow进行一个简单的定义：图像独立特征的统计表达。【Histogram representation based on independent features】

1.1 特征检测

　　Content based image indexing and retrieval（CBIR）对特征提取进行了详细的介绍，这里需要指出的是特征检测是一个很初级的概念，得到具有区别性的区域，我们通常能写出显示形式的特征已经涉及到了特征表达部分。

1.2 特征表达

　　对于特征区域进行描述的方法称为特征表达，一个好的描述子应该具有强度/旋转/尺度/放射变化不变性。比较出名的就是SIFT算子，将每个特征块转换为128维的特征向量，而每幅图像就是一系列SIFT特征向量的集合。

1.3 码本生成

　　在BoW最后一步就是把SIFT特征向量用一个码元表示，就像是一个word。由于特征向量128维度，每个维度哪怕量化为8bit，最后的马元组合数也是8的128次方，过于巨大，所以一般的方式是对所有图像的SIFT特征进行K-means聚类，K即是最后的码本集合大小，码元就是聚类的中心，图像上的SIFT采用最近邻的方式映射到聚类中心。最后整幅图像就被表达为SIFT聚类中心（码元）的统计分布。

关于聚类这一点，在NLP也有一定的体现，只是不是用k-means的方法，而是stemming word得到一个词干作为码元，进行词干的统计。
以单个单词构成的码本维度大概是170,000个，去掉废弃词统计为100,000左右，但stem后应该只有10K左右吧（根据自己实验里遇到的情况，不一定正确）。
图像的BoW可以自己人工设定，一般在1K量级，视情况而定。

2. 基于BoW模型的分离器学习和识别

在我们得到一幅图像的表达后，就会考虑其在这种特征空间下具有什么样的分布特性，并根据分布特性设计分类器实现分类和识别。对应BoW模型的分类方法主要分为生成模型和判别模型两大主流。

2.1 生成模型

　　朴素贝叶斯模型，因为其简单有效，常常被用来作为baseline的方法。

　　层次贝叶斯模型

　　由于朴素贝叶斯在一副图像包含了几个不同主题的情况下不能取得很好的效果，于是提出其他拓展，如潜语义分析 Probabilistic latent semantic analysis (pLSA)和主题模型 latent Dirichlet allocation (LDA)是比较著名的用作出来多主题的方法。

2.2 判别模型

由于图像被表达为BoW，所以适合适用于文档的判别模型都可以用来对图像的BoW进行分类。常见的有SVM和AdaBoost.

===========================================================================================

Bag-of-Words模型源于文本分类技术，在信息检索中，它假定对于一个文本，忽略其词序和语法、句法。将其仅仅看作是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说这篇文章的作者在任意一个位置选择词汇都不受前面句子的影响而独立选择的。

图像可以视为一种文档对象，图像中不同的局部区域或其特征可看做构成图像的词汇，其中相近的区域或其特征可以视作为一个词。这样，就能够把文本检索及分类的方法用到图像分类及检索中去。Accelerating Bag-of-Features SIFT Algorithm for 3D Model Retrieval

Bag-of-Features模型仿照文本检索领域的Bag-of-Words方法，把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(如K-means)将局部特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示（可看当为一种特征量化过程）。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码书(code book)，即码字的集合，词典中所含词的个数反映了词典的大小。图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现，然后统计每个视觉词的出现与否或次数，图像可描述为一个维数相同的直方图向量，即Bag-of-Features。Bag of Features Codebook Generation by Self-Organisation

Bag-of-Features更多地是用于图像分类或对象识别。在上述思路下对训练集提取Bag-of-Features特征，在某种监督学习（如:SVM）的策略下，对训练集的Bag-of-Features特征向量进行训练，获得对象或场景的分类模型；对于待测图像，提取局部特征，计算局部特征与词典中每个码字的特征距离，选取最近距离的码字代表该特征，建立一个统计直方图，统计属于每个码字的特征个数，即为待测图像之Bag-of-Features特征；在分类模型下，对该特征进行预测从实现对待测图像的分类。

Classification Process

1、局部特征提取：通过分割、密集或随机采集、关键点或稳定区域、显著区域等方式使图像形成不同的patches，并获得各patches处的特征。其中，SIFT特征较为流行。

2、构建视觉词典：
由聚类中心代表的视觉词汇形成视觉词典：

3、生成码书，即构造Bag-of-Features特征，也即局部特征投影过程：

4、SVM训练BOF特征得分类模型，对待测图像BOF特征预测：

Retrieval Process

Bag-of-words在CV中的应用首先出现在Andrew Zisserman[6]中为解决对视频场景的搜索，其提出了使用Bag-of-words关键点投影的方法来表示图像信息。后续更多的研究者归结此方法为Bag-of-Features，并用于图像分类、目标识别和图像检索。在Bag-of-Features方法的基础上，Andrew Zisserman进一步借鉴文本检索中TF-IDF模型(Term Frequency一Inverse Document Frequency)来计算Bag-of-Features特征向量。接下来便可以使用文本搜索引擎中的反向索引技术对图像建立索引，高效的进行图像检索。

Hamming embedding and weak geometric consistency for large scale image search

实现检索的过程同分类的过程无本质的差异，更多的是细节处理上的差异：

1、局部特征提取；

2、构建视觉词典；

3、生成原始BOF特征；

4、引入TF-IDF权值：

TF-IDF是一种用于信息检索的常用加权技术，在文本检索中，用以评估词语对于一个文件数据库中的其中一份文件的重要程度。词语的重要性随着它在文件中出现的频率成正比增加，但同时会随着它在文件数据库中出现的频率成反比下降。TF的主要思想是:如果某个关键词在一篇文章中出现的频率高，说明该词语能够表征文章的内容，该关键词在其它文章中很少出现，则认为此词语具有很好的类别区分度，对分类有很大的贡献。IDF的主要思想是:如果文件数据库中包含词语A的文件越少，则IDF越大，则说明词语A具有很好的类别区分能力。
词频(Term Frequency，TF)指的是一个给定的词语在该文件中出现的次数。如：tf = 0.030 ( 3/100 )表示在包括100个词语的文档中, 词语'A'出现了3次。
逆文档频率(Inverse Document Frequency，IDF)是描述了某一个特定词语的普遍重要性，如果某词语在许多文档中都出现过，表明它对文档的区分力不强，则赋予较小的权重;反之亦然。如:idf = 13.287 ( log (10,000,000/1,000) )表示在总的10,000,000个文档中，有1,000个包含词语'A'。
最终的TF-IDF权值为词频与逆文档频率的乘积。

5、对查询图像生成同样的带权BOF特征；

6、查询：初步是通过余弦距离衡量，至于建立索引的方法还未学习到，望看客指点。

Issues

1、使用k-means聚类，除了其K和初始聚类中心选择的问题外，对于海量数据，输入矩阵的巨大将使得内存溢出及效率低下。有方法是在海量图片中抽取部分训练集分类，使用朴素贝叶斯分类的方法对图库中其余图片进行自动分类。另外，由于图片爬虫在不断更新后台图像集，重新聚类的代价显而易见。
2、字典大小的选择也是问题，字典过大，单词缺乏一般性，对噪声敏感，计算量大，关键是图象投影后的维数高；字典太小，单词区分性能差，对相似的目标特征无法表示。
3、相似性测度函数用来将图象特征分类到单词本的对应单词上，其涉及线型核，塌方距离测度核，直方图交叉核等的选择。
4、将图像表示成一个无序局部特征集的特征包方法，丢掉了所有的关于空间特征布局的信息，在描述性上具有一定的有限性。为此， Schmid[2]提出了基于空间金字塔的Bag-of-Features。
5、Jégou[7]提出VLAD(vector of locally aggregated descriptors)，其方法是如同BOF先建立出含有k个visual word的codebook，而不同于BOF将一个local descriptor用NN分类到最近的visual word中，VLAD所采用的是计算出local descriptor和每个visual word(ci)在每个分量上的差距，将每个分量的差距形成一个新的向量来代表图片。

Paper

1. Bag of words models (.ppt ) by Li Fei-Fei (Stanford)

2. Spatial Pyramid Matching :

Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories
S. Lazebnik, C. Schmid, and J. Ponce, CVPR 2006
Slides, MATLAB code, scene category dataset

3. Improving bag-of-features for large scale image search

Improving bag-of-features for large scale image search.
Hervé Jégou, Matthijs Douze, Cordelia Schmid.International Journal of Computer Vision, Volume 87, Number 3 - feb 2010.[pdf]
Demo:bigimbaz image search engine

4. Hamming embedding and weak geometric consistency for large scale image search. Hervé Jégou, Matthijs Douze, Cordelia Schmid
European Conference on Computer Vision - oct 2008.[pdf][slides]

5. Bag-of-colors for improved image search. Christian Wengert, Matthijs Douze, Hervé Jégou,ACM Multimedia (2011).[pdf]

6. Video Google: A Text Retrieval Approach to Object Matching in Videos . J. Sivic, A. Zisserman. IEEE International Conference on Computer Vision, Volume 2, page 1470--1477, 2003.[PDF ]

7.Aggregating local descriptors into a compact image representation. Hervé Jégou, Matthijs Douze, Cordelia Schmid, Patrick Pérez. IEEE Conference on Computer Vision & Pattern Recognition - jun 2010. [pdf][sildes]