计算机视觉--基于BOW的图像检索

Bag Of Word原理简述

Bag Of Word模型,是现在一种用于图像检索的一种方法。它最早用于对于文章内容的检索,原理是将文本看作是单词的集合,不考虑其中的语法,上下文等等。通过建立词典,对每个单词出现次数进行统计,以便得到文本内容的分类。计算机视觉的专家从中获得灵感,将其用于图像的检索中,就有了Bag Of Features。

Bag Of Features实现图像检索的简单步骤

1.特征提取
2.学习“视觉词典”
3.针对输入特征集,根据视觉词典进行量化
4.把输入图像,根据TF-IDF转化成视觉单词的频率直方图
5.构造特征到图像的倒排表,通过倒排表快速 索引相关图像
6.根据索引结果进行直方图匹配

1.特征提取

之前的课程之中学习了关于特征提取的几个方式,例如sift,Harris脚点。这里我们通过sift来提取图像的特征点。类似BOW,我们将图像看成一个由各种图像块组成的集合,通过特征提取,获得图像的关键图像特征。

2.学习“视觉词典”

通过步骤1,我们获得了多张图像的特征点。这些特征提取出来,并没有通过分类处理,其中有的特征点之间是极其相似,所以这一步骤通过K-means聚类算法,将我们提取出来的特征点进行分类处理。
算法的简单流程:

随机初始化 K 个聚类中心
重复下述步骤直至算法收敛:
对应每个特征,根据距离关系赋值给某个中心/类别
对每个类别,根据其对应的特征集重新计算聚类中心
聚类是学习视觉词典的重点操作。将聚类出来的聚类中心称为视觉单词。而将视觉单词组成的集合称为视觉词典/码本。
这里我们需要注意一个问题,关于码本的大小。

如果我们做出来的码本规模太小, 就会出现,我们的视觉单词不能包括所有可能的情况。
相反的,如果我们做出来的码本规模过大,会使得计算量增加,且有过拟合现象出现。

3.针对输入特征集,根据视觉词典进行量化

这一步骤将我们输入的特征集合ÿ

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值