深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统

最新推荐文章于 2025-09-26 15:39:48 发布

原创

最新推荐文章于 2025-09-26 15:39:48 发布 · 5.7w 阅读

174 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #海量数据 #图像检索

本文介绍了基于CVPR2015论文实现的图像检索系统，该系统在250w图片下，检索top 1000相似图片仅需1s。系统利用深度学习产出的特征表达图像信息，并采用局部敏感度哈希（LSH）进行快速近似最近邻搜索。文章详细讲解了系统原理和环境配置，包括CentOS和Ubuntu的安装步骤，以及预训练模型的使用。

作者：寒小阳
时间：2016年3月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/50856583
声明：版权所有，转载请联系作者并注明出处

1.引言

本系统是基于CVPR2015的论文《Deep Learning of Binary Hash Codes for Fast Image Retrieval》实现的海量数据下的基于内容图片检索系统，250w图片下，对于给定图片，检索top 1000相似时间约为1s，其基本背景和原理会在下文提到。

2.基本问题与技术

大家都知道，基于内容的图像检索系统是根据图像的内容，在已有图像集中找到最『相近』的图片。而这类系统的效果(精准度和速度)和两个东西直接相关：

图片特征的表达能力
近似最近邻的查找

根据我们这个简单系统里的情况粗浅地谈谈这两个点。

首先说图像特征的表达能力，这一直是基于内容的图像检索最核心却又困难的点之一，计算机所『看到』的图片像素层面表达的低层次信息与人所理解的图像多维度高层次信息内容之间有很大的差距，因此我们需要一个尽可能丰富地表达图像层次信息的特征。我们前面的博客也提到了，deep learning是一个对于图像这种层次信息非常丰富的数据，有更好表达能力的框架，其中每一层的中间数据都能表达图像某些维度的信息，相对于传统的Hist，Sift和Gist，表达的信息可能会丰富一下，因此这里我们用deep learning产出的特征来替代传统图像特征，希望能对图像有更精准的描绘程度。

再说『近似最近邻』，ANN(Approximate Nearest Neighbor)/近似最近邻一直是一个很热的研究领域。因为在海量样本的情况下，遍历所有样本，计算距离，精确地找出最接近的Top K个样本是一个非常耗时的过程，尤其有时候样本向量的维度也相当高，因此有时候我们会牺牲掉一小部分精度，来完成在很短的时间内找到近似的top K个最近邻，也就是ANN，最常见的ANN算法包括局部敏感度哈希/locality-sensitive hashing，最优节点优先/best bin first和Balanced box-decomposition tree等，我们系统中将采用LSH/局部敏感度哈希来完成这个过程。有一些非常专业的ANN库，比如FLANN，有兴趣的同学可以了解一下。

3. 本检索系统原理

图像检索系统和关键环节如下图所示：
基于内容的图像检索

图像检索过程简单说来就是对图片数据库的每张图片抽取特征(一般形式为特征向量)，存储于数据库中，对于待检索图片，抽取同样的特征向量，然后并对该向量和数据库中向量的距离，找出最接近的一些特征向量，其对应的图片即为检索结果。

基于内容的图像检索系统最大的难点在上节已经说过了，其一为大部分神经网络产出的中间层特征维度非常高，比如Krizhevsky等的在2012的ImageNet比赛中用到的AlexNet神经网，第7层的输出包含丰富的图像信息，但是维度高达4096维。4096维的浮点数向量与4096维的浮点数向量之间求相似度，运算量较大，因此Babenko等人在论文Neural codes

最低0.47元/天解锁文章