Kiapour M H, Han X, Lazebnik S, et al. Where to Buy It: Matching StreetClothing Photos in Online Shops[C]// IEEE International Conference on ComputerVision. IEEE, 2015:3343-3351.
1.介绍
网上购物是一个成倍增长的市场。2014年全球零售额(包括店内和互联网购物)的销售总额约为22.5万亿美元,在线销售额达到1316万亿美元。 到2018年,电子商务零售支出预计将增加到近2.5万亿美元[1]。 这些采购中的大部分与购买服装项目有关。 但是,从网上商店中准确找到你想要的东西仍然不是一个已解决的问题。
在本文中,我们看一个与网上购物相关的任务,即街头购物问题。给出服装物品的真实照片,例如 在街上拍摄,这个任务的目标是在网上商店找到这件衣服。 由于现实环境中的服装描述与网上购物图像的简洁性之间的差异,这是非常具有挑战性的。 例如,街头照片的人身上穿着衣服,而在网上商店里,衣服也可能被孤立地在模特上描绘出来。 商店的图像是专业拍摄的,具有更清晰的背景,更好的照明,以及与现实世界中消费者捕捉到的服装照片中可能出现的更独特的姿势。 为了应对这些挑战,我们引入了深度学习的方法来学习街道和商店照片之间的相似性度量。
街头到商店的问题最近已经被探索[24]。 以前,我们的目标是在在线商店中找到类似的服装项目,根据检索到的图像与一组固定的属性,颜色,长度和材料的匹配程度来衡量效果。 然而,寻找类似的服装项目可能并不总是对应于购物者的欲望。 通常,当购物者想要在线找到一个商品时,他们想要准确找到要购买的商品。
因此,我们定义一个新的任务,Exact Street to Shop,我们的目标是查询街头服装项目,在网上购物图像中找到完全相同的服装(图1)。
图1:我们的任务是查找确切的服装项目,这里是一件衣服,显示在查询中。 只有绿色矩形中的第一件衣服才算正确。 这与以前的工作不同, [24],考虑检索的衣服是否具有类似的高阶特征。 在那之下,比较宽松,评价所有的衣服都是正确的。 (对于这个查询,我们的相似性学习首先正确匹配。)
为了大规模地研究ExactStreet to Shop,我们收集并标记了现实世界中人们穿着的20,357幅服装图像以及来自购物网站的404,683幅服装图像的数据集。该数据集包含39,479对在街道照片和商店图像中显示的完全匹配项目。虽然相对于网络上的所有购物图象来说,我们已经远远超过了“服装谷仓”(美国的服装连锁店),并且正在以“服装飞机衣架”的规模工作!
我们的论文使用多种方法攻克ESS问题。 我们首先看看整个图像上的标准深度特征表示或者对象提议可以在这个检索任务上表现如何。 然后,我们探索方法来学习街道和商店照片之间的相似性度量。 在从图像中提取的现有深度特征表示之间学习这些相似性。 为了检验ESS任务的难度并评估我们的检索结果,我们还提供了几个人工实验,评估何时何地确切检索项目是可行的。
总之,我们的贡献是:
•介绍ESS任务并收集一个新的数据集,即Exact Street2Shop Dataset,用于评估此任务的执行情况。
•为ESS检索任务开发和评估基于深度学习特征的检索和相似性学习方法。
•ESS任务和我们结果的人性化评估。本文的其余部分安排如下:首先,我们回顾一些相关的工作(第2节)。 接下来,我们描述了ESS任务的新数据集(第3节)和方法(第4节)。 最后,我们提供实验结果(第5节)和结论(第6节)。
2.相关工作
服装识别:人们对计算机视觉和多媒体社区的服装识别越来越感兴趣。最近的一些论文已经展示了有效的服装解析方法,其中的目标是在一个人的图像中给每个像素分配一个语义服装标签[35,38,37,7,22]。其他的研究也探索了识别一个人的社会身份的方法,包括根据他们所穿的衣服预测他们的社会群体[19,17],时尚[36,30],或者职业[31]。有几种方法使用基于属性的框架来描述,分类或检索服装[3,4,5]。
图像检索:图像检索是计算机视觉的一个基本问题,对商业系统具有广泛的适用性。最近的许多高级检索方法包括三个主要步骤:池化本地图像描述符(例如Fisher vector[25、27、26]或VLAD[15])、维度减少和索引。Lim等[21]通过将3D模型对齐到二维图像区域来识别家具物品。一般来说,这些方法可以很好地完成对刚性对象的检索,但对于检索我们关注的软、可变形的服装项目可能不太适用。
服装检索:尽管在一般图像检索方面取得了最新进展,但在服装检索方面的研究相对较少。一些相关的作品使用解析[38]进行服装检索,或者使用全局的或细粒度的属性预测[5]。在跨场景检索方面也有一些努力[24,23,9,16]。与我们的工作最相关的是街道到商店[24]的方法,它利用稀疏表示来处理街道照片和商店照片之间的区域差异。然而,他们的方法依赖于上/下的身体探测器来校准街道和商店图像的局部身体部位,这在所有类型的商店图像中都是不可行的。他们还用一组固定的手工标记属性来评估检索性能。例如,评估查询服装和商店图像是否都描述了一件“蓝色,长袖,衬衫”。虽然这种评估方式可能适合一些购物者的需求,但我们认为,购物者的目标往往是在网上商店找到完全相同的商品。
深度相似:随着深度卷积神经网络在特征表达中越来越普遍,人们对相似学习的兴趣越来越浓厚。一些例子包括细粒度对象检索的方法[34,20],人脸验证[29,32],或图像块匹配[40,13,41]。这些技术学习表示与预定义的距离函数相结合,或者使用更通用的学习多层网络相似性度量。对于我们的相似学习方法,我们在现有的预先训练的深层特征基础上学习多层网络相似性度量。
领域适应:在不同的数据集域之间调整模型的概念已经得到了很好的探索。该领域的许多工作通过学习将源和目标域表示对齐到一个共同特征空间的转换来解决域适应问题[1,8,12,11]。其他方法已经检查了域适应方法,在目标域中只有有限数量的标记数据可用。这些方法在源域上训练分类器,并将它们调整到目标域[2,28]。最近,被监督的深层CNNs已经被证明是非常成功的领域适应任务[6,14,39]。我们的数据可以被视为包含两个视觉域,商店图像和街道图像。与大多数试图适应分类任务的领域适应技术相比,我们的方法能够实现跨领域检索。
Li Q, Sun Z, He R,et al. Deep Supervised Discrete Hashing[J]. 2017. NIPS
深度哈希算法
摘要:随着网络上图像和视频数据的快速发展,近几年图像及视频检索也被广泛的研究。得益于深度学习的发展,深度哈希方法在图像检索方面也取得了一定的成果。然而,之前的深度哈希方法还是存在一些限制「例如,没有充分利用语义信息」。在本文中,我们提出了一种深度离散哈希算法(discrete hashing algorithm),该算法认为学习到的二值编码应该也可以用于分类。成对标签信息和分类信息在统一框架下用于学习哈希编码。我们将最后一层的输出直接限制为二进制编码,而这种做法在基于深度学习哈希算法中很少被研究。由于哈希编码的离散性质,我们使用交替优化方法来求解目标函数。实验结果表明,我们的方法在基准数据集上的表现要好过目前最好的哈希方法。
由于网络上的图像和视频数据的快速增长,哈希算法(Hashing)在近几年间引起了极大的关注。由于其较低的计算成本和较高的存储效率,是图像搜索和视频搜索中最常使用的技术之一。一般来说,哈希算法可将高维数据编码为一组二进制代码,与此同时还能保持图像或视频的相似性。现有哈希算法可以大致分为两类:数据无关的方法和数据有关的方法。
近期有人提出了基于深度学习的哈希算法,它可以同时学习图像表示和哈希编码(hash coding),取得了比传统哈希算法更好的结果。「CNNH」[19] 是早期将深层神经网络与哈希编码融合的工作之一,该工作包括两个阶段来学习图像特征表示和哈希编码。CNNH 的一个缺点是通过学习得到的图像特征表示不能及时反馈给哈希编码。为了克服 CNNH 的这一缺陷,「Network In Network Hashing/NINH」[8] 提出了基于三元组损失函数来表示图像的相似性。研究表明,图像特征表示和哈希编码可以在一个框架内相互促进。「DSRH」算法 [24] 通过保留多标签图像间的相似语义信息来学习哈希函数。近年来还提出了其他基于排序的深度哈希算法 [17,21]。除了基于三元组排序方法外,还有一些基于成对标签的深度哈希算法 [9,25]。
我们所做工作总结如下。「1」我们方法的最后一层输出直接限制为二进制编码。学习到的二进制编码既能保持图像之间的相似关系,同时又能和标签信息保持一致。据我们所知,该方法是第一个在统一框架下同时使用成对标签信息和分类信息学习哈希编码的方法。「2」为了减少量化误差,我们在优化过程中保留了哈希编码的离散化这一特性。此外,我们还提出了一种交替优化方法,即使用坐标下降法优化目标函数。「3」大量的实验结果表明,我们的方法在图像检索问题上,取得了比现最好方法更好的结果,从而验证了我们方法的有效性。
Gordo A, AlmazánJ, Revaud J, et al. End-to-End Learning of Deep Visual Representations forImage Retrieval[J]. International Journal of Computer Vision, 2017:1-18.
1引言
实例级图像检索(也称为实例级图像搜索)是一种视觉搜索任务,其目的是在给定查询图像的情况下,在潜在非常大的图像数据库中检索与查询包含相同对象实例的所有图像。 图像检索和其他相关的视觉搜索任务具有广泛的应用,例如,在网络上的反向图像搜索或个人照片集的组织。 图像检索也被视为数据驱动的方法的一个关键组成部分,使用视觉搜索将与检索图像相关联的注释传输到查询图像(Torralba et al,2008)。 这对于像图像标签(Makadia et al,2008),GPS坐标(Hays and Efros,2008)或显着的物体位置(Rodriguez-Serrano等,2015)等不同的注释是有用的。
深度学习,尤其是深度卷积神经网络(CNN),已经成为计算机视觉中非常强大的工具。Krizhevsky等(2012)使用卷积神经网络在2012年取得了ImageNet分类和本地化挑战(Russakovsky等,2015)的第一名,基于深度学习的方法显着改善了图像分类技术的状态(Russakovsky et al ,2015),对象检测(Girshick等,2014)和语义分割(Long等,2015)。最近,他们还在图像字幕(Frome et al,2013; Karpathyet al,2014)和视觉问答(Antol etal,2015)等其他语义任务中发挥了作用。但是,深度学习在实例级图像检索中并没有取得很大的成功。在大多数图像检索的基准上,深度方法的结果显着低于传统方法,依赖于局部描述符匹配和精确的空间验证(Mikulık等,2010; Tolias等,2015; Tolias和Jégou,2015; Li等,2015 )。
大多数基于深度的检索方法利用预先准备的网络作为局部特征提取器,并且只专注于设计适合于在这些特征之上的图像检索的图像表示。允许深层架构准确地表示不同大小和纵横比的输入图像(Babenko和Lempitsky,2015; Kalantidis等,2016; Tolias等,2016),或者解决缺乏基于CNN的几何不变性 特征(Gong等,2014; Razavian等,2014) 已经做出了贡献。在这里,我们认为,阻碍以往基于深层架构的检索方法的主要原因之一是缺乏对实例级图像检索的具体任务的监督学习。 这些方法中的大多数使用局部特征,这些特征是使用在ImageNet(Deng等人,2009)等大图像分类数据集上预先训练的网络提取的,或者对现有网络进行微调,再次用于分类任务(Babenkoet al,2014)。
在这项工作中,我们把重点放在适合于检索任务的学习表示问题上。 与学习区分不同语义类别的特征不同,因此,对于类内变异性来说,它们具有很强的鲁棒性,这里我们对区分特定对象感兴趣,即使它们属于相同的语义类。 我们提出了一种解决方案,它将为检索任务量身定制的表示和明确地针对检索的训练过程结合在一起。
对于表示,我们建立在卷积(R-MAC)描述符的区域最大激活(Toliaset al,2016)上。 这种方法计算了不同尺度的几个图像区域的基于CNN的描述符,这些描述符被汇总成一个固定长度的紧凑特征向量,因此对尺度和平移具有适度的稳健性。 这种方法的一个优点是它可以高分辨率编码图像而不会扭曲它们的高宽比。 然而,R-MAC描述符在其原始形式中使用在ImageNet上预训练的CNN,我们认为这是次优的。 在我们的工作中,我们注意到R-MAC流水线的所有步骤都可以集成到一个CNN中,然后我们建议以端到端的方式学习它的权重,因为计算中涉及的所有步骤都是可区分的。
对于训练过程,我们使用一个暹罗网络,结合了三个流的三重损失,明确地优化我们的网络的权重,以产生适合于检索任务的表示。此外,我们还建议学习R-MAC描述符的汇聚机制。在Tolias等人(2016年)的原始结构中,一个刚性网格决定了合并产生最终图像级描述符的区域的位置。在这里,我们建议明确地学习如何使用区域提议网络来选择给定图像内容的区域。训练过程产生了一种新颖的架构,能够在单个正向通道中将一个图像编码成紧凑的固定长度矢量。然后可以使用点积来比较差异图像的表示。最后,我们提出了一种将不同分辨率的信息编码成单个描述符的方法。输入图像首先在不同的尺度上调整大小,然后将它们的表示组合,产生多分辨率描述符,显着改善结果。
学习我们代表的权重需要适当的培训数据。 为了达到这个目的,我们利用Babenko et al(2014)的公共地标数据集,其中图像搜索引擎以几个着名地标的名字来查询图像。 我们建议这个数据集的清理过程,自动抛弃大量的错误标记的图像,并估计地标的位置,而不需要进一步的注释或手动干预。 我们选择了Landmark数据集,因为它与标准的实例级检索基准很好地匹配,如Babenko等(2014)所示。 但是,我们的方法是通用的,如果适当的培训数据可用,应该适应不同的领域。
对四个标准图像检索基准的广泛的实验性研究定量评估了我们每个贡献的影响。 我们还展示了将我们的表示与查询扩展和数据库端特征增强相结合的效果,以及压缩对产品量化的影响。最后,我们获得的结果大大优于所有数据集的现有技术水平,不仅与每个图像使用一个全局表示的方法相比,而且与代价更大的方法相比,不像我们提出的方法,需要执行后续的匹配阶段 或几何验证。
本文的其余部分安排如下。 第2节讨论相关工作。 第3节描述清理过程,引出一个合适的训练集。第4节描述了训练过程,而第5节提出了一些改进我们的深层架构。 第6部分描述了最终的传递途径,并与现有技术进行比较。 最后第7节总结论文。
本文以如下方式扩展了我们以前的工作(Gordo et al,2016):当构建全局描述符时,我们将剩余网络架构视为一种替代方案(其深层特性需要调整我们的训练过程,参见4.3节)。我们构建了一个描述符的多分辨率版本,其中查询和数据库图像之间的比例变化(5.3节)。 我们建议将我们的方法与数据库端的特征增强结合起来,以显着提高检索的准确性,而不需要额外的成本(第6.2节)。 我们用PCA和产品量化来评估压缩在我们表示中的影响(见6.3节)。 这些新的贡献导致显着改善的结果。 此外,我们还展示了定性的结果,说明学习在模型激活中的影响。
2相关的图像检索工作
本节概述了一些有助于实例级图像检索的关键论文。
2.1传统的图像检索
早期的实例级检索技术,如Sivic和Zisserman(2003),Nister和Stewenius(2006)以及Philbin等(2007)的研究都依赖于特征表示,大型词汇表和倒排文件。 已经提出了许多更接近描述符匹配的方法,例如参见Jégou等人(2008)的作品; Jégou等(2010); Mikulik等(2013); Tolias等人(2015年)。 这些技术的一个优点是可以利用空间验证来重新列出结果的最终结果(Philbinet等,2007; Perdoch等,2009),尽管成本很高,但仍有很大的改进。
同时,已经考虑了合并本地图像构建全局图像表示的方法。 例如Perronnin等(2010)已经使用了编码技术,例如Fisher Vector(Perronnin andDance,2007; Perronnin等,2010)或VLAD描述符(Jégou等,2010);Gordo等(2012); Jégou和密友(2012年); Radenovic等(2015)。所有这些方法都可以和后处理技术相结合,如查询扩展(Chum et al,2007,2011;Arandjelovic and Zisserman,2012)。 一些工作也建议压缩描述符以降低准确度的成本来提高存储要求和检索效率。 虽然最常见的方法是通过PCA或产品量化来使用无监督压缩(Perronninet al,2010;Jégouand Chum,2012; Radenovic et al,2015),但监督降维方法也是可能的(Gordo等,2012)。
2.2基于CNN的检索
在Krizhevsky等人(2012)的开创性工作中,被训练用于ImageNet分类的CNN的激活被用作实例级检索任务的图像特征,尽管这只是定性的评估。不久之后,Razavian等(2014)对这些现成的CNN特征进行了定量评估。为了克服其对缩放,裁剪和图像杂波的鲁棒性,提出了一些改进措施。 Razavian等(2014)的方法进行区域交叉匹配,并且在Babenko和Lempitsky(2015)的一个方法中将求和区域应用于白化区域描述符,从而累计每个查询区域的最大相似度。 Kalantidis等(2016)通过允许跨度加权和神经编码的聚集扩展了Babenko和Lempitsky(2015)的工作。其其他方法也提出了使用FV或Gong等人(2014)和Paulin等人(2015)考虑VLAD的编码技术(如Perronnin和Larlus(2015))的混合模型。虽然这些方法的性能远远优于标准的全局描述符,但其性能明显低于传统方法的现状。
Tolias等人(2016年)提出在一个固定布局的空间区域中聚合一个CNN的激活特征。 该方法使用预训练的完全卷积CNN来提取图像的局部特征,而不改变其纵横比并且不依赖于尺度,并且使用已知可用于图像检索的已知归一化将这些局部特征聚合成全局性表示(Jégou和Chum,2012)。 其结果是R-MAC描述符,即图像的固定长度矢量表示,当与查询扩展相结合时,实现接近本地状态的结果。我们的工作提出了对R-MAC流水线的不同看法,不同的特定操作可以被看作是一个单一的深度网络的一部分,并且可以区分地学习网络的权重和区域汇聚机制。
2.3检索
由于模型被训练来实现类内泛化,在图像网上训练的模型使用现成的特征可能不是实例级检索任务的最佳选择。 提出了一些方法来明确学习更适合于检索任务的权重,而不是使用针对对象分类任务进行预训练的模型作为特征提取器。 Babenko等人(2014)的工作表明,在ImageNet上进行对象分类预训练的模型可以通过将它们在地标图像的外部集合上进行微调来改善,即使在使用分类丢失时也是如此。
我们工作的一个初步版本(Gordo et al,2016)和一项同时的工作(Radenovic et al,2016)证实,对检索的预训练模型进行微调可以带来显着的改善,但是证明更为关键的是i )良好的图像表示和ii)排名损失 - 而不是由Babenko等(2014)使用的分类损失。 Arand-jelovic等(2016)最近的NetVLAD也强调了学习排名的重要性。 本文直接遵循这一研究路线。