计算机视觉--基于BOW的图像检索

最新推荐文章于 2022-06-20 15:47:00 发布

theblacksummer

最新推荐文章于 2022-06-20 15:47:00 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/theblacksummer/article/details/90146132

版权

Bag Of Word原理简述

Bag Of Word模型，是现在一种用于图像检索的一种方法。它最早用于对于文章内容的检索，原理是将文本看作是单词的集合，不考虑其中的语法，上下文等等。通过建立词典，对每个单词出现次数进行统计，以便得到文本内容的分类。计算机视觉的专家从中获得灵感，将其用于图像的检索中，就有了Bag Of Features。

Bag Of Features实现图像检索的简单步骤

1.特征提取
2.学习“视觉词典”
3.针对输入特征集，根据视觉词典进行量化
4.把输入图像，根据TF-IDF转化成视觉单词的频率直方图
5.构造特征到图像的倒排表，通过倒排表快速索引相关图像
6.根据索引结果进行直方图匹配

1.特征提取

之前的课程之中学习了关于特征提取的几个方式，例如sift，Harris脚点。这里我们通过sift来提取图像的特征点。类似BOW，我们将图像看成一个由各种图像块组成的集合，通过特征提取，获得图像的关键图像特征。

2.学习“视觉词典”

通过步骤1，我们获得了多张图像的特征点。这些特征提取出来，并没有通过分类处理，其中有的特征点之间是极其相似，所以这一步骤通过K-means聚类算法，将我们提取出来的特征点进行分类处理。
算法的简单流程：

随机初始化 K 个聚类中心
重复下述步骤直至算法收敛:
对应每个特征，根据距离关系赋值给某个中心/类别
对每个类别，根据其对应的特征集重新计算聚类中心
聚类是学习视觉词典的重点操作。将聚类出来的聚类中心称为视觉单词。而将视觉单词组成的集合称为视觉词典/码本。
这里我们需要注意一个问题，关于码本的大小。

如果我们做出来的码本规模太小，就会出现，我们的视觉单词不能包括所有可能的情况。
相反的，如果我们做出来的码本规模过大，会使得计算量增加，且有过拟合现象出现。

3.针对输入特征集，根据视觉词典进行量化

这一步骤将我们输入的特征集合ÿ

最低0.47元/天解锁文章

theblacksummer

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
计算机视觉--基于BOW的图像检索

Bag Of Word原理简述Bag Of Word模型，是现在一种用于图像检索的一种方法。它最早用于对于文章内容的检索，原理是将文本看作是单词的集合，不考虑其中的语法，上下文等等。通过建立词典，对每个单词出现次数进行统计，以便得到文本内容的分类。计算机视觉的专家从中获得灵感，将其用于图像的检索中，就有了Bag Of Features。Bag Of Features实现图像检索的简单步骤1....
复制链接

扫一扫