基于深度学习的视觉实例搜索研究进展

本文总结了深度学习在视觉实例搜索领域的应用,包括端到端的特征学习方法如NetVLAD和基于CNN特征的编码方法。深度学习通过学习更具有判别性的图像特征,提高了实例搜索的性能。文章探讨了NetVLAD、DeepRelativeDistanceLearning、FashionNet等方法,以及如何在缺乏搜索数据集的情况下利用预训练CNN模型提取有效特征。
摘要由CSDN通过智能技术生成

 

摘要

近些年,深度学习在各种计算机视觉任务上都取得了重大的突破,其中一个重要因素就是其强大的非线性表示能力,能够理解图像更深层次的信息。本文对基于深度学习的视觉实例搜索方法做了简单的总结和概括,希望能给读者们带来启发。

前言

给定一张包含某个物体的查询图片,视觉实例搜索的任务就是从候选的图片库中找到那些与查询图片包含相同物体的图片。与一般的图像搜索相比,实例搜索的搜索条件更为苛刻——是否包含相同的物体,如同一款衣服,同一辆车等等。该问题具有非常广泛的应用前景,如商品搜索,车辆搜索和基于图像的地理位置识别等。举个例子,移动商品图像搜索就是通过分析利用手机相机拍摄的商品照片,从商品库中找到相同或相似的商品。

然而在实际场景中,由于姿态,光照和背景等干扰因素,所以两张包含相同物体的图像往往在外观上差异很大。从这个角度来看,视觉实例搜索的本质问题就是应该学习什么样的图像特征从而使得包含相同物体的图像在特征空间上是相似的。

近些年,深度学习在各种计算机视觉任务上都取得了重大的突破,其中就包括视觉实例搜索任务。本文主要对基于深度学习的实例搜索算法(下面简称为“深度实例搜索算法”)进行剖析和总结,文章分为四个部分:第一部分总结了经典视觉实例搜索算法的一般流程;第二部分和第三部分分别从两个方面去介绍近些年主要的深度实例搜索算法;端到端的特征学习方法和基于CNN特征的特征编码方法;第四部分将通过总结在2015年首届阿里巴巴大规模图像大赛(Alibaba Large-scale Image Search Challenge, ALISC)中出现的相关方法,介绍一些实践中可以提高实例搜索性能的技巧和方法。

经典视觉实例搜索算法的一般流程

在深度学习流行之前,典型的实例搜索算法一般分为三个阶段:首先在给定的图像密集地提取局部不变特征,然后将这些局部不变特征进一步地编码为一个紧凑的图像表示,最后将查询图像与候选图像库中的图像进行相似度计算(基于第二步得到的图像表示),找到那些属于同一实例的图片。

1. 局部不变特征。局部不变特征的特点就是提取图像局部区域的细节信息,不关心全局信息,并对该局部区域内的光线变化、几何变换具有一定的不变性。这对实例搜索非常有意义,因为目标物体可以伴随着几何变换出现图像中的任何区域。在早期的工作中,很多实例搜索方法采用的是SIFT特征。

2. 特征编码。对局部特征进一步地编码有两方面的意义:挖掘这些局部特征之间的相关信息,增强可判别能力;单一紧凑的特征向量更易于实现索引,提高搜索速度。目前常见的方法有VLAD(vector of locally aggregated descriptors),Fisher Vectors,triangular embedding等。在这里,本文简单地介绍下VLAD方法(在本文后面多次出现):

a)VLAD方法首先利用k-means得到包含k个中心的码本,然后每个局部特征被指派给离它最近的中心点(我们将这一步称为hard-assignment,之后会相关文章对此进行改进),最后将这些局部特征与其指派的中心点之间的残差累和作为最终的图像表示。从上面可以看出,VLAD方法有无序的特性——不关心局部特征的空间位置,因此可以进一步解耦全局空间信息,对几何变换具有很好的鲁棒性。

3. 相似度计算。一种直接的做法是根据距离函数计算特征之间的距离,例如欧式距离,余弦距离等。另一种是学习相应的距离函数,例如LMNN、ITML等度量学习方法。

总结:经典视觉实例搜索算法的性能往往受限于hand-crafted特征的表示能力。当深度学习应用在实例搜索任务时,主要就是从特征表示入手,即如何提取更加具有判别性的图像特征。

端到端的特征学习方法

NetVLAD: CNN architecture for weakly supervised place recognition (CVPR 2016)

这篇文章是来自于INRIA 的Relja Arandjelović等人的工作。该文章关注实例搜索的一个具体应用——位置识别。在位置识别问题中,给定一张查询图片,通过查询一个大规模的位置标记数据集,然后使用那些相似的图片的位置去估计查询图片的位置。作者首先使用Google Street View Time Machine建立了大规模的位置标记数据集,随后提出了一种卷积神经网络架构,NetVLAD——将VLAD方法嵌入到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值