Bag Of Word原理简述
Bag Of Word模型,是现在一种用于图像检索的一种方法。它最早用于对于文章内容的检索,原理是将文本看作是单词的集合,不考虑其中的语法,上下文等等。通过建立词典,对每个单词出现次数进行统计,以便得到文本内容的分类。计算机视觉的专家从中获得灵感,将其用于图像的检索中,就有了Bag Of Features。
Bag Of Features实现图像检索的简单步骤
1.特征提取
2.学习“视觉词典”
3.针对输入特征集,根据视觉词典进行量化
4.把输入图像,根据TF-IDF转化成视觉单词的频率直方图
5.构造特征到图像的倒排表,通过倒排表快速 索引相关图像
6.根据索引结果进行直方图匹配
1.特征提取
之前的课程之中学习了关于特征提取的几个方式,例如sift,Harris脚点。这里我们通过sift来提取图像的特征点。类似BOW,我们将图像看成一个由各种图像块组成的集合,通过特征提取,获得图像的关键图像特征。
2.学习“视觉词典”
通过步骤1,我们获得了多张图像的特征点。这些特征提取出来,并没有通过分类处理,其中有的特征点之间是极其相似,所以这一步骤通过K-means聚类算法,将我们提取出来的特征点进行分类处理。
算法的简单流程:
随机初始化 K 个聚类中心
重复下述步骤直至算法收敛:
对应每个特征,根据距离关系赋值给某个中心/类别
对每个类别,根据其对应的特征集重新计算聚类中心
聚类是学习视觉词典的重点操作。将聚类出来的聚类中心称为视觉单词。而将视觉单词组成的集合称为视觉词典/码本。
这里我们需要注意一个问题,关于码本的大小。
如果我们做出来的码本规模太小, 就会出现,我们的视觉单词不能包括所有可能的情况。
相反的,如果我们做出来的码本规模过大,会使得计算量增加,且有过拟合现象出现。
3.针对输入特征集,根据视觉词典进行量化
这一步骤将我们输入的特征集合ÿ