基于BOW图像搜索相似图片原理

最新推荐文章于 2022-06-20 01:41:08 发布

Zhansijing

最新推荐文章于 2022-06-20 01:41:08 发布

阅读量741

点赞数

本文链接：https://blog.csdn.net/weixin_37592611/article/details/90076664

版权

图像检索按描述图像内容方式的不同可以分为两类，一类是基于文本的图像检索(TBIR, Text Based Image Retrieval)，另一类是基于内容的图像检索(CBIR, Content Based Image Retrieval)。
TBIR方式是利用文本标注的方式对图像中的内容进行描述，从而为每幅图像形成描述这幅图像内容的关键词；在进行检索时，用户可以根据自己的兴趣提供查询关键字，检索系统根据用户提供的查询关键字找出那些标注有该查询关键字对应的图片，最后将查询的结果返回给用户；这种方法需要人工标记，只使用于小规模的图像数据库。
而CBIR利用计算机对图像进行分析，建立图像特征矢量描述并存入图像特征库，当用户输入一张查询图像时，用相同的特征提取方法提取查询图像的特征得到查询向量，然后在某种相似性度量准则下计算查询向量到特征库中各个特征的相似性大小，最后按相似性大小进行排序并顺序输出对应的图片。
下图是基于内容的图像检索基本框架

一，BOW词袋模型原理
BoW(Bag of Words)词袋模型最初被用在文本分类中，将文档表示成特征矢量。它的基本思想是假定对于一个文本，忽略其词序和语法、句法，仅仅将其看做是一些词汇的集合，而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子（因为里面装的都是词汇，所以称为词袋，Bag of words即因此而来），然后看这个袋子里装的都是些什么词汇，将其分类。如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些，而银行、大厦、汽车、公园这样的词汇少些，我们就倾向于判断它是一篇描绘乡村的文档，而不是描述城镇的。

例如：下面两个文档
文档一：Bob likes to play basketball, Jim likes too.    
文档二：Bob also likes to play football games.  
基于这两个文本文档，构造一个词典：
Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”，8. “games”, 9. “Jim”, 10. “too”}
 这个词典一共包含10个不同的单词，利用词典的索引号，上面两个文档每一个都可以用一个10维向量表示（用整数数字0~n（n为正整数）表示某个单词在文档中出现的次数）：
 文档一：[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]  
 文档二：[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0] 
向量中每个元素表示词典中相关元素在文档中出现的次数。不过，在构造文档向量的过程中可以看到，但是我们并没有表达单词在原来句子中出现的次序。

二，构建BOW码本
1，提取SIFT特征。对每一幅图像提取SIFT特征（每一幅图像提取多少个SIFT特征不定）。每一个SIFT特征用一个128维的描述子矢量表示，假设M幅图像共提取出N个SIFT特征。
2，用K-means对2中提取的N个SIFT特征进行聚类，K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。聚类中心有k个（在BOW模型中聚类中心我们称它们为视觉词），码本的长度也就为k，计算每一幅图像的每一个SIFT特征到这k个视觉词的距离，并将其映射到距离最近的视觉词中（即将该视觉词的对应词频+1）。完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量。
3，构造码本。码本矢量归一化因为每一幅图像的SIFT特征个数不定，所以需要归一化。测试图像也需经过预处理，提取SIFT特征，将这些特征映射到为码本矢量，码本矢量归一化，最后计算其与训练码本的距离，对应最近距离的训练图像认为与测试图像匹配。

三，码本优化
1，在做完词频统计后，可能会存在某些无关词的干扰例如：的，是等；这些词在每个文本中频率都很高但是没有什么实际用处。因此，可以给每个单词乘上一个权重（TF-IDF主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类）
$tf_w,_d=n_w/\sum_{}^{} {n_j}$ $idf=log\frac{|D|}{|{d:w\in d}|}$
tf为每个单词的投票值， idf为单词的权重
2.在做TF统计的时候，我们知道一般为了取得更好的效果，通常单词数目会做得比较大，动则上万或几十万，所以在做聚类的时候，可以对这些类中心做一个K-D树，这样在做TF词频统计的时候便可以加快单词直方图计算的速度。
四，BOW检索流程总结

特征提取
学习 “视觉词典（visual vocabulary）”
针对输入特征集，根据视觉词典进行量化
把输入图像，根据TF-IDF转化成视觉单词（ visual words）的频率直方图
构造特征到图像的倒排表，通过倒排表快速索引相关图像
根据索引结果进行直方图匹配
五，基于BOW图像搜索的实现

(https://blog.csdn.net/weixin_37592611/article/details/90077471)

Zhansijing

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于BOW图像搜索相似图片原理

图像检索按描述图像内容方式的不同可以分为两类，一类是基于文本的图像检索(TBIR, Text Based Image Retrieval)，另一类是基于内容的图像检索(CBIR, Content Based Image Retrieval)。TBIR方式是利用文本标注的方式对图像中的内容进行描述，从而为每幅图像形成描述这幅图像内容的关键词；在进行检索时，用户可以根据自己的兴趣提供查询关键字，检索...
复制链接

扫一扫