引言
首先介绍一下写这篇文章的背景,最近在看视频无监督的paper,无监督最早采用特征提取+聚类的模型,其中一篇提到了利用LLC进行快速聚类,所以了解了一下图像的稀疏表示。
图像的稀疏表示方法经历了ScPM到LLC的发展历程,但是他们两者是建立在对BoW和SPM的修改上,因此本文将后者也纳入稀疏表示的范畴。
需要注意的是,图像的稀疏表示的表述或许有些歧义,因为这些方法探讨或者研究的不是特征的提取方法,而是如果利用提取的特征更好地表征一个图像,进一步用来做图像的相似度匹配或者图像检索。
稀疏表示
BoW
Bag Of Word(词袋)模型,是现在一种用于图像检索的一种方法。它最早用于对于文章内容的检索,原理是将文本看作是单词的集合,通过建立词典,对每个单词出现次数进行统计,以便得到文本内容的分类。计算机视觉研究从中获得灵感,将其用于图像的检索中,就有了Bag Of Features(原理类似Bag of word)。
具体而言,其分为以下步骤:
- 特征提取:将图像看成一个由各种图像块组成的集合,通过特征提取,获得图像的关键图像特征:
![08b25dc08c6c1b97801c88a04fe95cae.png](https://i-blog.csdnimg.cn/blog_migrate/bbf3ae64ad4fa9249bfef928590f1dc3.jpeg)
- 学习“视觉词典”(visual vocabulary):获得了多张图像的特征之后,这些特征并没有通过分类处理,其中有的特征点之间是极其相似,所以这一步骤通过K-means聚类算法,将我们提取出来的特征点进行分类处理。聚类是学习视觉词典的重点操作。将聚类出来的聚类中心称为视觉单词(codevector)。而将视觉单词组成的集合称为视觉词典/码本(codebook)。
- 对输入特征集进行量化:将输入的特征集合,映射到上一步做来的码本之中。通过计算输入特征到视觉单词的距离,然后将其映射到距离最近的视觉单词中,并计数。
- 把输入图像转化成视觉单词( visual words)的频率直方图:这一步骤通过对图像特征提取,然后将提取出来的特征点,根据第三步,转换为频率直方图。如图所示