基于词汇树的图像检索（一）：词汇树

原创

于 2015-03-29 09:48:31 发布 · 9.1k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了基于词汇树的图像检索方法，涉及视觉单词、SIFT特征、层次K-means聚类等关键概念。通过对图像提取SIFT特征并使用K-means聚类生成视觉单词，进而构建词汇树，实现大规模图像集的快速检索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从今天起准备把我的毕设的实现细节写到博客里面，一方面写一遍加深记忆，另一方面如果哪天忘记了查起来也方便

毕设题目是基于词汇树的无序图像集检索和支撑结构生成，其实提出词汇树那篇文章(Scalable Recognition with a Vocabulary Tree[1])已经是2006年的了，算是很老的文章，但是在大规模二三维重建的过程中快速的图像检索还是有意义的。

今天算是把整个程序怎么写彻底想通了，果然不能没有彻底相同就开始写代码。用力过猛容易闪着腰【高三暑假TAT

这个程序大概是这么个流程：（记录一下，无论是实验室寝室还是公司都可以查，不用老是带着那张草稿纸了）

1. 所有图像提特征（已经实现）

2. 建树（输入：所有特征，特征个数）（已经实现）

3. 将训练集图像转换成TF-IDF向量（最麻烦的部分，正在写）

(1) 计算树中每个节点的IDF值（输入：所有特征，一个记录每张图有多少特征的一位数组）

(2) 计算每张图的TF-IDF向量 (输入：指向起始特征的指针，特征数目)

(3) 将TF-IDF向量和对应的图像路径写入数据结构（输入：TF-IDF向量和图像路径）

4. 查询

(1) 计算查询图像的TF-IDF向量 (输入：查询图像路径)

(2) 找到距离最近的数据库图像 (已经实现)

今天先说下什么叫做词汇树。

首先介绍一个概念叫做视觉单词，视觉单词的提出是基于bag of words模型的。首先对于数据集的图像提取sift特征。sift特征在图像描述方面是应用最为广泛的一种特征，由David Lowe在1999年提出，于2004年完善。sift特征得到的结果是，对于图像上的每一个兴趣点都得到一个128维的描述向量（图上有多少兴趣点，兴趣点

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。