[computer vision] Bag of Visual Word (BOW)

最新推荐文章于 2024-07-23 14:44:17 发布

洛蕾

最新推荐文章于 2024-07-23 14:44:17 发布

阅读量3.9k

点赞数

分类专栏：计算机文章标签：计算机 c#

本文链接：https://blog.csdn.net/qq_45562973/article/details/123917734

版权

本文介绍了Bag of Visual Words (BoW)模型在计算机视觉中的应用，主要用于content-based image retrieval (CBIR)任务。通过提取图像的SIFT特征，进行聚类并计算直方图，实现图像的表示和检索。实践中使用ZuBuD数据集，随着聚类类别增加，准确率提高，但过多类别会导致准确度下降。文章提供了详细的代码实现和测试结果。

摘要由CSDN通过智能技术生成

Python微信订餐小程序课程视频

https://edu.csdn.net/course/detail/36074

Python实战量化交易理财系统

https://edu.csdn.net/course/detail/35475

Bag of Visual Word (BoW, BoF, 词袋)

简介

BoW 是传统的计算机视觉方法，用一些特征（一些向量）来表示一个图像。BoW的核心思想是利用一组较为通用的特征，将图像用这些特征来表示，不同图像对于同一个特征的响应也是不同的，最终一个图像可以转化成关于这一组特征的一个频率直方图（向量）。这里有个挺清晰的介绍。BoW 常常用在 content-based image retrieval (CBIR) 任务上。
例如下面这张图（来源 Brown Computer Vision 2021 ）形象的介绍了BoW的，首先有一堆图片，然后提取这些图片中的特征，然后提取具有代表性的通用特征，然后计算不同图像对于这些特征的响应，从而将图像转换成关于这组特征的一个特征向量。

实践

本文不过多的介绍理论部分，主要使用opencv来进行一些实践操作。

数据集

本文使用的是一个比较老的数据集是 ZuBuD 数据集，是苏黎世联邦理工构建的数据集，开放下载。数据集是苏黎世城市内的一些建筑，训练集有1005张图像，包含201个建筑，测试集有115张图像，用来测试 image retrieval，有ground truth信息，即指定来哪些图像是对应的，如下随便找了两张图片。