Bag of Words 词袋模型
在信息检索中,Bag of words model 假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词的集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择,通过单词计数来构建文档直方图向量,从而建立文档索引。
Bag of Feature
Fei-fei Li 提出用BoW模型表达图像的方法,他们认为图像可以类比为文档(document), 图像中的单词(words)可以定义为一个图像块(image patch)的特征向量,那么图像的BoW模型即是 “图像中所有图像块的特征向量得到的直方图”。这就转变成了现有一幅图像的基础上对已有的码本(codebook)上进行投票的过程,投票结果与数据库里某图像投票结果越接近,则认为两幅图像的关联程度越高。
BoF大致流程:
- 图像特征提取:
假设有N张图像, 第i张图像图像可由n(i)个image patch组成, 也即可以由n(i)个特征向量表达. 则总共能得到sum(n(i))个特征向量(即单词)。特征描述子可自由选取,要找到图像中的关键词,而这些关键词必须具备较高的区分度,因此我们采用SIFT描述子提取特征; - 特征聚类生成码本:
如果单纯使用SIFT特征来描述图像,那每幅图像包含许多个特征点,每个特征点都有128维向量,计算相似度时数据量过于庞大,因此我们用聚类算法(例如采用k-means算法)对这些矢量数据进行聚类,然后用聚类中心代表BoW中的一个视觉词,将同一幅图像的SIFT矢量映射到视觉词序列生成码本,这样每一幅图像只用一个码本来描述,就大大缩小了计算量; - 投票生成直方图:
对每张图片, 通过最近邻计算该图片的每个 “单词”应该属于码本中的 “哪一类”单词, 从而得到该图片对应于该码本的BoF表示,统计出最相似的向量出现的次数,最后得到这幅图片的直方图向量。
TF-IDF 词频-逆向文档频率
在BoW模型中,不同单词对文本检索的贡献有差异,一些跟主题不相关的词可能占据较大的比重,例如介词、代词(“这”、“和”、“是”),而这些词对主题的检索几乎没有作用。这种词我们称为停止词(Stop Word),表明在度量相关性时不考虑它们的频率。为排除停止词对索引结果的影响,可采用TF-IDF的策略,通常是一个单词的重要性与它在文档中出现次数成正比,与它在数据集中出现的频率成反比:
单词w在文档d中的词频 —— tfw,d = nw / ∑j nj ,(nw为单词出现次数)
逆向文档频率 —— idfw,d = log( |(D)|/ |{ d:w ∈ d }|) ,|(D)|是数据集D中文档数目,|{ d:w ∈ d }|则是数据集中包含单词w的文档数d。
将 tf 和 idf 相乘可得矢量对应单词的权重,这个权重满足:
- 一个词对主题预测能力越强,权重越大;
- 停止词权重为 0;
开始创建词汇
在开始之前,我们需要配置好SIFT文件,将PCV代码文件放到要运行的代码的目录下;
然后开始提取特征,k-means聚类生成词汇:
这里k-means聚类时 voc.train 方法中可以自定义不同数量的聚类中心和子采样个数,针对不同数据