在本文中,我们提出了一种新的嵌入方法,称为焦点排序,可以很容易地统一成一个CNN,在细粒度织物图像检索的背景下,共同学习图像表示和度量。
Focus ranking的目的是通过将排列在不同样本之下的相似样本的总成本最小化来惩罚排序障碍,从而使相似样本的排名高于所有不同样本。在培训阶段,将培训样本组织成重点排序单元,进行有效优化。我们建立了一个大规模的织物图像检索数据集(FIRD),其中包含4300种织物的25000幅图像。
传统的图像检索方法主要包括两个关键部分:一是设计一种鲁棒性和鉴别性的图像表示方法;二是确定给定图像表示的有效距离或相似度度量。传统方法中使用的图像再现语句通常是手工制作的,例如SIFT[1]、GIST[2,3]、Bag of Words (BoW)[4]、Fisher Vector (FV)[5,6]和VLAD[7]。这些方法虽然在图像检索中取得了合理的成功,但在很大程度上依赖于特征工程。更严重的是,这两个组件分别设计或学习,导致次优解。
一种基于卷积神经网络(CNN)的图像表示方法和距离或相似度度量方法[8,9],可以无缝地用于图像检索。具体来说,这些方法训练了一个带有度量学习嵌入的CNN。两种简单而有效的度量学习嵌入方法是对嵌入和三重嵌入。
优化了这两种嵌入方法,将不同标签的样本拉开,将相同标签的样本推近。这些判别模型最重要的优点是可以联合学习图像表示和语义有意义的度量,对类内变化和类间混淆具有较强的鲁棒性。
一个图像检索系统的目的是找出具有相同标签的样本与许多负面的样本。但是,成对和三重嵌入方法对一个不超过一个负图像作为参考的度量建模,这是对实际设置的非常粗略的近似。本文提出了一种新的嵌入方法,即焦点排序法,可以方便地统一到CNN中进行联合优化。特别是,所提出的模型旨在将标签相同的样本(即匹配样本)排在所有负样本之上。因此,我们通过将匹配样本的总成本降到低于任何负样本的最低来惩罚排序混乱。在训练阶段,我们将训练样本组织成焦点排序单元,每个单元由探针样本、匹配样本和参考集组成,进行有效的优化。它学习将匹配的样本排在参考集合中所有负样本的顶部。
据我们所知,目前还没有公开的织物图像检索数据集。建立了大规模的织物图像检索数据集(FIRD)。它包含4300种织物,每一种都有5到10个实例。我们将FIRD数据集分为两部分,随机选取一半的面料作为训练集,另一半面料作为测试集。